VitaBench – 美团推出的大模型Agent评测基准

AI工具10个月前发布

65 0 0

VitaBench是什么

VitaBench 是美团 LongCat 团队发布的面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建了包含66个工具的交互式评测环境，设计了跨场景综合任务，从深度推理、工具使用与用户交互三大维度衡量智能体表现。首次量化拆解智能体任务，构建大规模真实环境数据库，引入真实用户模拟器，通过原子化评估准则（Rubric）实现细粒度行为覆盖。

VitaBench – 美团推出的大模型Agent评测基准

VitaBench的主要功能

构建复杂任务评测环境：以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建包含66个工具的交互式评测环境，设计跨场景综合任务，模拟真实场景下的复杂需求。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

混元-A13B – 腾讯开源基于MoE架构的大语言模型

90 0

Skywork MindLink – 昆仑万维开源的推理大模型

139 0

Stand-In – 腾讯微信推出的视频生成框架

158 0

毕业宝 – AI学术辅助助手，支持论文降重、改写

205 0

可将宠物、原创人物甚至物体放入 AI 视频，OpenAI 为 Sora 更新角色出镜功能

59 0

韩国新研究：学生用 AI 写作，竟有 83% 参与者 1 分钟后忘记自己写的内容

108 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号