deepseek又发新论文了！arxiv.org/pdf/2505.09343论文主要介绍了DeepSeek-V3在硬件架构方面的挑战和创新，以及如何通过软硬件协同设计实现高效训练和推理

deepseek又发新论文了！arxiv.org/pdf/2505.09343
论文主要介绍了DeepSeek-V3在硬件架构方面的挑战和创新，以及如何通过软硬件协同设计实现高效训练和推理。
关键结论
✨内存效率：DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB，远低于其他模型（如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB）。这使得模型更适合处理长文本和资源受限的环境。
✨成本效益：MoE 架构允许在训练时仅激活部分参数，从而显著降低计算需求。例如，DeepSeek-V3 在扩展到 671B 参数时，每个 token 的激活参数仅为 37B，相比全参数激活的密集模型（如 72B 的 Qwen 和 405B 的 LLaMA），计算成本大幅降低。
✨推理速度：通过重叠计算和通信以及多令牌预测模块，DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如，多令牌预测模块可以将生成速度提高 1.8 倍。
✨低精度计算：FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练，通过细粒度量化策略，相对 BF16 的精度损失控制在 0.25% 以内。
✨网络优化：采用多平面两层 Fat-Tree 网络拓扑，相比传统的三层 Fat-Tree 拓扑，显著降低了网络成本，并提高了网络的鲁棒性和可扩展性。
论文还提出了对未来 AI 硬件的建议和展望。