LORA
原理**[11]**


LORA 参数 [10]
-
r
Lora权重矩阵
LoraA: M*r
LoraB: r*N
- r是连接LoraA和LoraB矩阵的维度,远远小于M和N。
-
alpha
- input和原始权重输出为 X
input和Lora权重输出为 ΔX
- 前向传播: X = X + (alpha / r) * ΔX
权重合并: weight = weight + (alpha / r) * lora_weight
秩的选择[11]
实验结果显示,对于一般的任务,r=1, 2, 4, 8 就足够了。而一些领域差距比较大的任务可能需要更大的 r 。
