QuantiPhy – 李飞飞团队推出的VLM物理推理量化评估基准

AI工具3天前发布
1 0

QuantiPhy是什么

QuantiPhy 是斯坦福大学李飞飞团队推出的首个量化评估视觉 – 语言模型(VLM)物理推理能力的基准。QuantiPhy 通过 3300 多个视频 – 文本实例,要求模型基于视频和物理先验(如物体尺寸、速度等),定量推理物体的运动学属性(如大小、速度、加速度)。研究发现,当前 VLM 在任务中常依赖预训练知识非真正基于输入进行推理,存在显著的定性与定量推理差距。QuantiPhy 为推动 VLM 实现更可靠的物理世界理解提供了重要测试平台。

QuantiPhy – 李飞飞团队推出的VLM物理推理量化评估基准

QuantiPhy的主要功能

  • 量化评估物理推理能力:QuantiPhy 专注于评估 VLM 在视频中对物体运动学属性(如大小、速度、加速度)的定量推理能力,填补以往定性评估的不足。

© 版权声明

相关文章