北大的团队新出了一个评测 PHYBench,使用500个基于现实世界物理场景的物理问题,评估模型理解和推理现实物理过程。
得分来看 Gemini-2.5-Pro 仍然是目前最猛
论文地址:www.alphaxiv.org/abs/2504.16074
#AI生活指南# #ai创造营# http://m.weibo.cn/status/5159212599740050?
得分来看 Gemini-2.5-Pro 仍然是目前最猛
论文地址:www.alphaxiv.org/abs/2504.16074
#AI生活指南# #ai创造营# http://m.weibo.cn/status/5159212599740050?