24、DeepSeek-V3论文笔记-四、预训练与后训练流程

时间:2025-05-14 11:32:54
1. 预训练阶段
  • 数据构建
    • 14.8万亿高质量令牌,包含数学、编程、多语言数据,采用文档打包和Fill-in-Middle(FIM)策略增强数据多样性。
  • 超参数与扩展
    • 61层Transformer,隐藏维度7168,激活参数37B/令牌;通过两阶段扩展上下文至128K(YaRN技术),NIAH测试验证长上下文稳定性。
  • 训练稳定性
    • 全程无不可恢复的损失骤增或回滚,优化后的负载均衡策略确保训练稳定。
2. 后训练阶段
  • 监督微调(SFT)
    • 150万实例,融合DeepSeek-R1生成的推理数据(数学、代码等),平衡准确性与响应长度。
  • 强化学习(RL)
    • 采用Group Relative Policy Optimization(GRPO),结合规则奖励(如数学答案格式验证)和模型奖励,提升复杂任务表现。