Llama3的卓越表现源于三大核心要素:
1.高质量数据:15T tokens的高质量多语言数据。
2.规模性:8B、70B、405B的模型矩阵,通过大模型提升小模型的质量,实现同类最佳效果。
3.简洁性:选择Transformer架构而非MoE架构,采用相对简单的后训练程序,如SFT、RS和DPO,而非复杂的强化学习算法。
Llama3的开发分为两个主要阶段:
1.预训练:在15.6万亿token上预训练了4050亿参数的模型,上下文窗口为8K token。随后进行继续预训练,将上下文窗口扩展至128K token。
2.后训练:通过多轮人类反馈与模型对齐,每轮包括监督式微调(SFT)和直接偏好优化(DPO)。后训练阶段还整合了工具使用等新能力,并在编码和推理等领域取得显著进展。

