LORA

原理[11]

LORA 参数 [10]

r
- 原始权重矩阵Weight: M*N
Lora权重矩阵
```
  LoraA:  M*r
  LoraB:  r*N
```
- r是连接LoraA和LoraB矩阵的维度，远远小于M和N。
alpha
- input和原始权重输出为 X input和Lora权重输出为 ΔX
- 前向传播: X = X + (alpha / r) * ΔX 权重合并: weight = weight + (alpha / r) * lora_weight

秩的选择[11]

实验结果显示，对于一般的任务，r=1, 2, 4, 8 就足够了。而一些领域差距比较大的任务可能需要更大的 r 。