微软发布了Phi-4-reasoning 模型。参数14b,开源推理模型。
🔗 huggingface.co/microsoft/Phi-4-reasoning
该模型基于约 140 万条精心筛选的 o3-mini 推理演示数据进行监督微调,并进行了少量强化学习。
虽然是个小模型但跑分不低,特别是在AIME 25上。能力应该是侧重于数学和推理。
#AI创造营# https://mapp.api.weibo.cn/fx/9bc92fe610f79abbd23d330b73ef44a9.html
🔗 huggingface.co/microsoft/Phi-4-reasoning
该模型基于约 140 万条精心筛选的 o3-mini 推理演示数据进行监督微调,并进行了少量强化学习。
虽然是个小模型但跑分不低,特别是在AIME 25上。能力应该是侧重于数学和推理。
#AI创造营# https://mapp.api.weibo.cn/fx/9bc92fe610f79abbd23d330b73ef44a9.html
小米 3小时前刚刚发布了四个模型!
MiMo-7B-Base 是基础模型
MiMo-7B-RL-Zero 是基于基础模型训练的 RL 模型 (强化学习)
MiMo-7B-SFT 是基于基础模型训练的 SFT 模型 (监督式微调)
MiMo-7B-RL 是基于 SFT 模型再 RL 的模型
这么反复炼丹,最终 MiMo-7B-RL 在 MATH-500 数学测试上打了个 95.8 的逆天 https://mapp.api.weibo.cn/fx/28e39724e956cfd390b162b5c42d16b5.html
MiMo-7B-Base 是基础模型
MiMo-7B-RL-Zero 是基于基础模型训练的 RL 模型 (强化学习)
MiMo-7B-SFT 是基于基础模型训练的 SFT 模型 (监督式微调)
MiMo-7B-RL 是基于 SFT 模型再 RL 的模型
这么反复炼丹,最终 MiMo-7B-RL 在 MATH-500 数学测试上打了个 95.8 的逆天 https://mapp.api.weibo.cn/fx/28e39724e956cfd390b162b5c42d16b5.html