1. 预训练阶段
-
数据构建:
- 14.8万亿高质量令牌,包含数学、编程、多语言数据,采用文档打包和Fill-in-Middle(FIM)策略增强数据多样性。
-
超参数与扩展:
- 61层Transformer,隐藏维度7168,激活参数37B/令牌;通过两阶段扩展上下文至128K(YaRN技术),NIAH测试验证长上下文稳定性。
-
训练稳定性:
- 全程无不可恢复的损失骤增或回滚,优化后的负载均衡策略确保训练稳定。
2. 后训练阶段
-
监督微调(SFT):
- 150万实例,融合DeepSeek-R1生成的推理数据(数学、代码等),平衡准确性与响应长度。
-
强化学习(RL):
- 采用Group Relative Policy Optimization(GRPO),结合规则奖励(如数学答案格式验证)和模型奖励,提升复杂任务表现。