Skip to main content

北大的团队新出了一个评测 PHYBench,使用500个基于现实世界物理场景的物理问题,评估模型理解和推理现实物理过程