重要信息

Llama3的卓越表现源于三大核心要素：

1.高质量数据：15T tokens的高质量多语言数据。

2.规模性：8B、70B、405B的模型矩阵，通过大模型提升小模型的质量，实现同类最佳效果。

3.简洁性：选择Transformer架构而非MoE架构，采用相对简单的后训练程序，如SFT、RS和DPO，而非复杂的强化学习算法。

Llama3的开发分为两个主要阶段：

1.预训练：在15.6万亿token上预训练了4050亿参数的模型，上下文窗口为8K token。随后进行继续预训练，将上下文窗口扩展至128K token。

2.后训练：通过多轮人类反馈与模型对齐，每轮包括监督式微调（SFT）和直接偏好优化（DPO）。后训练阶段还整合了工具使用等新能力，并在编码和推理等领域取得显著进展。

1 引言