BabyVision是什么
BabyVision是 UniPat AI团队推出的多模态理解评测集,评估多模态语言模型(MLLMs)和图像生成模型在视觉推理任务上的表现。包含两个主要赛道:MLLM评估和生成评估。评测集设计了四大视觉能力类别,包括精细辨别、视觉追踪、空间感知和视觉模式识别,共22项子任务,总计388道题目。这些任务严格控制语言依赖,以真实反映模型的视觉理解能力。
BabyVision的主要功能
- 评估多模态模型的视觉推理能力:通过设计严格的视觉任务,测试多模态语言模型(MLLMs)和图像生成模型在纯视觉场景下的表现,揭示模型在视觉理解方面的短板。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
