Computer Use Preview是什么
Computer Use Preview 是谷歌开源的 AI 浏览器自动化工具。工具基于 Gemini 模型的视觉识别能力,通过“截图 – 分析 – 行动”能模拟人类操作网页,无需依赖固定的元素定位。工具能处理复杂任务,如跨网站数据搬运和视觉交互,且在任务完成测试中表现优异,得分为 69%,优于同类工具。Computer Use Preview集成 Gemini API 和 Vertex AI,具备强大的任务理解能力,适用 Web 测试、数据采集及日常操作,是零代码入门的理想选择。
Computer Use Preview的主要功能
- 自然语言驱动:用户能通过简单的自然语言描述任务,AI 自动规划并执行操作,无需编写复杂脚本,大大降低使用门槛。
- 智能交互:支持处理复杂的浏览器操作,如导航、点击、表单填写、滚动等。Gemini 模型能理解页面的动态变化,适应不同场景。
- 双环境支持
- Playwright(本地运行):在本地控制 Chrome 浏览器实例,适合需要本地数据处理的场景。
- Browserbase(云环境):连接到 Browserbase 实例,适合需要云资源支持或分布式操作的场景。
- 调试友好:支持截图和鼠标高亮功能,用户能实时监控执行过程,方便调试和优化操作。
- AI 大模型集成:集成 Gemini API 和 Vertex AI,提供强大的任务理解能力,能够处理复杂的指令和动态网页内容。
如何使用Computer Use Preview
- 准备工作:从 Computer Use Preview 的 GitHub 页面下载项目文件,解压到本地。
- 设置运行环境:安装 Python(建议 3.8 及以上),创建虚拟环境并激活,用于隔离项目依赖。
- 安装依赖:在项目文件夹中,运行命令安装项目依赖和 Playwright 浏览器。
- 配置 API 密钥:从 Google Cloud 获取 Gemini API 密钥,将其添加到环境变量中。
- 运行工具:用自然语言指令运行工具,例如:“Go to Google and type ‘Hello World’”。
- 可选配置:指定运行环境(如 Playwright 或 Browserbase),并根据需要配置相关参数。
Computer Use Preview的项目地址
- GitHub仓库:https://github.com/google-gemini/computer-use-preview
- 在线体验地址:Browserbase
Computer Use Preview的应用场景
- Web 自动化测试:用于快速测试网页功能,验证按钮点击、表单提交等操作是否正常。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
