终于把 DeepSeek 这个系列的 DeepSeek V2 里的 MLA 写完了,我之前以为这个是最难理解的,因为涉及到一些纯线性代数的推导。不过回过头来看其实里面数学的难度不大,但这个过程却十分精彩,有时候我都觉得这里面有剧本。DeepSeek 系列的论文我其实已经都扫过一遍了,但最喜欢的还是 V2 这篇论文。
https://oilbeater.com/2025/04/14/deepseek-mla/
https://oilbeater.com/2025/04/14/deepseek-mla/