论文

引言

AdaLoRA：
- 核心思想：AdaLoRA（Adaptive LoRA）旨在动态调整各层的秩分配。
- 实现方式：AdaLoRA 通过一些指标（例如，梯度范数）来评估不同层的重要性，并根据重要性动态地调整 LoRA 的秩。更重要的层分配更高的秩，从而获得更好的性能。
QLoRA：
- 核心思想：QLoRA（Quantized LoRA）将4-bit 量化与 LoRA 相结合，以进一步降低显存占用。
- 实现方式：QLoRA 首先将预训练模型的权重量化为 4-bit 精度，然后在此基础上应用 LoRA。由于 4-bit 量化可以显著降低显存占用，因此 QLoRA 可以在有限的 GPU 资源上微调更大的模型。
- 显存节省：QLoRA 可以节省高达 70% 的显存。
Delta-LoRA：
- 核心思想：Delta-LoRA 引入参数更新量的动量机制。
- 实现方式：Delta-LoRA 在更新 LoRA 参数时，考虑之前的更新方向和幅度，从而更稳定地进行微调。