Computer Use Preview – 谷歌开源的AI浏览器自动化工具

AI工具1周前发布
13 0

Computer Use Preview是什么

Computer Use Preview 是谷歌开源的 AI 浏览器自动化工具。工具基于 Gemini 模型的视觉识别能力,通过“截图 – 分析 – 行动”能模拟人类操作网页,无需依赖固定的元素定位。工具能处理复杂任务,如跨网站数据搬运和视觉交互,且在任务完成测试中表现优异,得分为 69%,优于同类工具。Computer Use Preview集成 Gemini API 和 Vertex AI,具备强大的任务理解能力,适用 Web 测试、数据采集及日常操作,是零代码入门的理想选择。

Computer Use Preview – 谷歌开源的AI浏览器自动化工具

Computer Use Preview的主要功能

  • 自然语言驱动:用户能通过简单的自然语言描述任务,AI 自动规划并执行操作,无需编写复杂脚本,大大降低使用门槛。
  • 智能交互:支持处理复杂的浏览器操作,如导航、点击、表单填写、滚动等。Gemini 模型能理解页面的动态变化,适应不同场景。
  • 双环境支持
    • Playwright(本地运行):在本地控制 Chrome 浏览器实例,适合需要本地数据处理的场景。
    • Browserbase(云环境):连接到 Browserbase 实例,适合需要云资源支持或分布式操作的场景。
  • 调试友好:支持截图和鼠标高亮功能,用户能实时监控执行过程,方便调试和优化操作。
  • AI 大模型集成:集成 Gemini API 和 Vertex AI,提供强大的任务理解能力,能够处理复杂的指令和动态网页内容。

如何使用Computer Use Preview

  • 准备工作:从 Computer Use Preview 的 GitHub 页面下载项目文件,解压到本地。
  • 设置运行环境:安装 Python(建议 3.8 及以上),创建虚拟环境并激活,用于隔离项目依赖。
  • 安装依赖:在项目文件夹中,运行命令安装项目依赖和 Playwright 浏览器。
  • 配置 API 密钥:从 Google Cloud 获取 Gemini API 密钥,将其添加到环境变量中。
  • 运行工具:用自然语言指令运行工具,例如:“Go to Google and type ‘Hello World’”。
  • 可选配置:指定运行环境(如 Playwright 或 Browserbase),并根据需要配置相关参数。

Computer Use Preview的项目地址

  • GitHub仓库:https://github.com/google-gemini/computer-use-preview
  • 在线体验地址:Browserbase

Computer Use Preview的应用场景

  • Web 自动化测试:用于快速测试网页功能,验证按钮点击、表单提交等操作是否正常。

© 版权声明

相关文章