一位 Meta 工程师的「用 Cursor 做个推特」教程,主要是用 ChatGPT 来写项目的开发文档:
第一步:构建 architecture.md
打开 ChatGPT(4o,不是 o1/o3/o4)并说:
“我正在构建一个[产品描述 - 越详细越好]。前端使用 Next.js,数据库和身份验证使用 Supabase。
给我完整的架构:
- 文件 + 文 https://mapp.api.weibo.cn/fx/51ce56dc4ba8ee605a666bb432cc006f.html
第一步:构建 architecture.md
打开 ChatGPT(4o,不是 o1/o3/o4)并说:
“我正在构建一个[产品描述 - 越详细越好]。前端使用 Next.js,数据库和身份验证使用 Supabase。
给我完整的架构:
- 文件 + 文 https://mapp.api.weibo.cn/fx/51ce56dc4ba8ee605a666bb432cc006f.html
#学习的本质是极致的重复# (转)世界上被证明最有效率的四个学习方法,值得好好看看,受益匪浅。
1、费曼学习法
曾经有一个农民让自己的孩子从学校回来之后,把在学校学到的知识讲给自己听。这样他也可以学到知识了。可没想到,他孩子的学习成绩从此特别优异,最终考上了清华。
这个农民无意中采用 https://mapp.api.weibo.cn/fx/abccc97723f7d95e0537bb4110e37326.html
1、费曼学习法
曾经有一个农民让自己的孩子从学校回来之后,把在学校学到的知识讲给自己听。这样他也可以学到知识了。可没想到,他孩子的学习成绩从此特别优异,最终考上了清华。
这个农民无意中采用 https://mapp.api.weibo.cn/fx/abccc97723f7d95e0537bb4110e37326.html
//@水獭otter:这老兄厉害了。//@伊洛牧:出问题大部分时间用来解释客观原因,而非如何详述补救措施及可能,引以为戒//@学术状态帝:这彭家荣把在欧美职场不能说的都一股脑地说了出来[允悲]有种隐形的畅快感//@程序员邹欣:1. 虚假的团队凝聚力, 2. 内耗&爱辩论, 3. 眼高手低//https://mapp.api.weibo.cn/fx/6a4677ce517c6aced0c9bb468fb70e6e.html
deepseek又发新论文了!arxiv.org/pdf/2505.09343
论文主要介绍了DeepSeek-V3在硬件架构方面的挑战和创新,以及如何通过软硬件协同设计实现高效训练和推理。
关键结论
✨内存效率:DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB,远低于其他模型(如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB)。这使得模型更适合处理长文本和资源受限的环境。
✨成本效益:MoE 架构允许在训练时仅激活部分参数,从而显著降低计算需求。例如,DeepSeek-V3 在扩展到 671B 参数时,每个 token 的激活参数仅为 37B,相比全参数激活的密集模型(如 72B 的 Qwen 和 405B 的 LLaMA),计算成本大幅降低。
✨推理速度:通过重叠计算和通信以及多令牌预测模块,DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如,多令牌预测模块可以将生成速度提高 1.8 倍。
✨低精度计算:FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练,通过细粒度量化策略,相对 BF16 的精度损失控制在 0.25% 以内。
✨网络优化:采用多平面两层 Fat-Tree 网络拓扑,相比传统的三层 Fat-Tree 拓扑,显著降低了网络成本,并提高了网络的鲁棒性和可扩展性。
论文还提出了对未来 AI 硬件的建议和展望。
论文主要介绍了DeepSeek-V3在硬件架构方面的挑战和创新,以及如何通过软硬件协同设计实现高效训练和推理。
关键结论
✨内存效率:DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB,远低于其他模型(如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB)。这使得模型更适合处理长文本和资源受限的环境。
✨成本效益:MoE 架构允许在训练时仅激活部分参数,从而显著降低计算需求。例如,DeepSeek-V3 在扩展到 671B 参数时,每个 token 的激活参数仅为 37B,相比全参数激活的密集模型(如 72B 的 Qwen 和 405B 的 LLaMA),计算成本大幅降低。
✨推理速度:通过重叠计算和通信以及多令牌预测模块,DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如,多令牌预测模块可以将生成速度提高 1.8 倍。
✨低精度计算:FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练,通过细粒度量化策略,相对 BF16 的精度损失控制在 0.25% 以内。
✨网络优化:采用多平面两层 Fat-Tree 网络拓扑,相比传统的三层 Fat-Tree 拓扑,显著降低了网络成本,并提高了网络的鲁棒性和可扩展性。
论文还提出了对未来 AI 硬件的建议和展望。