论文
论文地址
LLM Post-Training: A Deep Dive into Reasoning Large Language Models
引言
一、
微调技术
:模型的定向进化
1.2.1 LoRA 系列技术
AdaLoRA
:
核心思想
:AdaLoRA(Adaptive LoRA)旨在
动态调整各层的秩分配
。
实现方式
:AdaLoRA 通过一些指标(例如,梯度范数)来评估不同层的重要性,并根据重要性动态地调整 LoRA 的秩。更重要的层分配更高的秩,从而获得更好的性能。
QLoRA
:
核心思想
:QLoRA(Quantized LoRA)将
4-bit 量化
与 LoRA 相结合,以进一步降低显存占用。
实现方式
:QLoRA 首先将预训练模型的权重
量化
为 4-bit 精度,然后在此基础上应用 LoRA。由于 4-bit 量化可以显著降低显存占用,因此 QLoRA 可以在有限的 GPU 资源上微调更大的模型。
显存节省
:QLoRA 可以节省高达 70% 的显存。
Delta-LoRA
:
核心思想
:Delta-LoRA 引入
参数更新量的动量机制
。
实现方式
:Delta-LoRA 在更新 LoRA 参数时,考虑之前的更新方向和幅度,从而更稳定地进行微调。
二、强化学习:从对齐到推理
2.1 LLM推理技术全景图