Skip to main content

acshame

  1. #学习的本质是极致的重复# (转)世界上被证明最有效率的四个学习方法,值得好好看看,受益匪浅。

    1、费曼学习法

    曾经有一个农民让自己的孩子从学校回来之后,把在学校学到的知识讲给自己听。这样他也可以学到知识了。可没想到,他孩子的学习成绩从此特别优异,最终考上了清华。

    这个农民无意中采用 ​​​https://mapp.api.weibo.cn/fx/abccc97723f7d95e0537bb4110e37326.html
  2. deepseek又发新论文了!arxiv.org/pdf/2505.09343
    论文主要介绍了DeepSeek-V3在硬件架构方面的挑战和创新,以及如何通过软硬件协同设计实现高效训练和推理。
    关键结论
    内存效率:DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB,远低于其他模型(如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB)。这使得模型更适合处理长文本和资源受限的环境。
    成本效益:MoE 架构允许在训练时仅激活部分参数,从而显著降低计算需求。例如,DeepSeek-V3 在扩展到 671B 参数时,每个 token 的激活参数仅为 37B,相比全参数激活的密集模型(如 72B 的 Qwen 和 405B 的 LLaMA),计算成本大幅降低。
    推理速度:通过重叠计算和通信以及多令牌预测模块,DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如,多令牌预测模块可以将生成速度提高 1.8 倍。
    低精度计算:FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练,通过细粒度量化策略,相对 BF16 的精度损失控制在 0.25% 以内。
    网络优化:采用多平面两层 Fat-Tree 网络拓扑,相比传统的三层 Fat-Tree 拓扑,显著降低了网络成本,并提高了网络的鲁棒性和可扩展性。
    论文还提出了对未来 AI 硬件的建议和展望。