小米 3小时前刚刚发布了四个模型！MiMo-7B-Base 是基础模型MiMo-7B-RL-Zero 是基于基础模型训练的 RL 模型 (强化学习)MiMo-7B-SFT 是基于基础模型训练的 SFT 模型 (监督式微调)MiMo-7B-RL 是基于 SFT 模型再 RL 的模型这么反复炼丹，最终 MiMo-7B-RL 在 MATH-500 数学测试上打了个 95.8 的逆天

04:11 · Apr 30, 2025 · Wed

小米 3小时前刚刚发布了四个模型！

MiMo-7B-Base 是基础模型
MiMo-7B-RL-Zero 是基于基础模型训练的 RL 模型 (强化学习)
MiMo-7B-SFT 是基于基础模型训练的 SFT 模型 (监督式微调)
MiMo-7B-RL 是基于 SFT 模型再 RL 的模型

这么反复炼丹，最终 MiMo-7B-RL 在 MATH-500 数学测试上打了个 95.8 的逆天 https://mapp.api.weibo.cn/fx/28e39724e956cfd390b162b5c42d16b5.html