model-ds-series
想着在这个时间点上回顾下模型和模型训练 infra 发展的经历,就以 DS 的技术报告为例吧。
DS 系列模型:
- DeepSeek LLM — DeepSeek LLM 7B、DeepSeek LLM 67B Dense(2024/01/05) arXiv:2401.02954
- DeepSeek-Coder — 1.3B~33B(2024/01/25) arXiv:2401.14196
- DeepSeekMoE — MoE 语言模型系列 2B / 16B / 145B 等(2024/01/11) arXiv:2401.06066
- DeepSeekMath — DeepSeekMath-7B(2024/02/05) arXiv:2402.03300
- DeepSeek-V2 — 第二代 MoE 通用大模型(2024/05/07) arXiv:2405.04434
- DeepSeek-V2.5 — 通用与代码能力合流迭代(2024/09/06;无单独 arXiv 技术报告,架构见 V2) 官方说明
- DeepSeek-V3 — 第三代 MoE 通用大模型(2024/12/27) arXiv:2412.19437
- DeepSeek-R1、DeepSeek-R1-Zero(2025/01/22) arXiv:2501.12948
继而再看框架的实现。不是之前不能做,之前这是个浩大的工程。现在借助模型不仅是代码门槛下降了,理解 sota 工作的门槛也下降了,可以抽空广泛的了解起来了,成为新时代的 “全栈” 工程师