EvoCUA – 美团开源的通用多模态计算机操作模型

AI工具2天前发布
3 0

EvoCUA是什么

EvoCUA(Evolving Computer Use Agent)是美团开源的多模态模型,专注于计算机使用自动化任务。EvoCUA通过自然语言指令和屏幕截图实现对Chrome、Excel、PowerPoint等软件的端到端多轮操作,显著提升计算机使用能力。在OSWorld基准测试中,EvoCUA以56.7%的任务完成率位列开源模型第一,超越多个知名模型。EvoCUA创新的数据合成与训练方法可在不降低通用性能的情况下,显著提升开源视觉语言模型的计算机使用能力。

EvoCUA – 美团开源的通用多模态计算机操作模型

EvoCUA的主要功能

  • 多轮交互:支持与桌面环境进行多轮交互,根据任务需求逐步完成操作。

© 版权声明

相关文章