北大的团队新出了一个评测 PHYBench,使用500个基于现实世界物理场景的物理问题,评估模型理解和推理现实物理过程。

得分来看 Gemini-2.5-Pro 仍然是目前最猛

论文地址:www.alphaxiv.org/abs/2504.16074

#AI生活指南# #ai创造营# ​​​http://m.weibo.cn/status/5159212599740050?
 
 
Back to Top