24、DeepSeek-V3论文笔记-四、预训练与后训练流程

时间：2025-05-14 11:32:54

1. 预训练阶段

数据构建：
- 14.8万亿高质量令牌，包含数学、编程、多语言数据，采用文档打包和Fill-in-Middle（FIM）策略增强数据多样性。
超参数与扩展：
- 61层Transformer，隐藏维度7168，激活参数37B/令牌；通过两阶段扩展上下文至128K（YaRN技术），NIAH测试验证长上下文稳定性。
训练稳定性：
- 全程无不可恢复的损失骤增或回滚，优化后的负载均衡策略确保训练稳定。

2. 后训练阶段

监督微调（SFT）：
- 150万实例，融合DeepSeek-R1生成的推理数据（数学、代码等），平衡准确性与响应长度。
强化学习（RL）：
- 采用Group Relative Policy Optimization（GRPO），结合规则奖励（如数学答案格式验证）和模型奖励，提升复杂任务表现。

相关文章

24、DeepSeek-V3论文笔记-四、预训练与后训练流程

