ChatGPT Agent – OpenAI推出的通用AI Agent

AI工具1年前 (2025)发布

98 0 0

ChatGPT Agent是什么

ChatGPT Agent是OpenAI推出的强大的AI智能体工具。工具整合Operator、Deep Research和ChatGPT本体的能力，能自主选择工具（如可视化浏览器、文本浏览器、终端和API调用器）完成复杂任务，例如浏览网页、提取信息、运行代码、生成PPT或表格等。用户用自然语言描述任务，ChatGPT Agent能实时展示操作过程，支持任务中断、修改和接管。ChatGPT Agent具备高级安全防护功能，确保用户数据安全。ChatGPT Agent与Manus交互界面相似，底层原理却又本质差异，ChatGPT Agent将Agent能力内化于模型，实现端到端的统一系统，Manus更依赖多个底层模型的“外部缝合”。目前，ChatGPT Agent已向付费会员（Pro/Plus/企业用户）用户开放，在多项基准测试中取得优异成绩。

ChatGPT Agent的主要功能

自主任务执行：用户只需描述任务，ChatGPT Agent 能自主判断所需工具，自动访问网页、提取信息、运行代码、生成 PPT 或表格等。
任务中断与修改：执行过程中，用户能随时中断任务、修改指令，支持手动接管浏览器继续操作，确保任务始终符合目标和需求。
多轮对话支持：支持多轮对话机制，用户在任务执行过程中随时插入新指令，Agent 会暂停当前任务处理新需求。
实时进度展示：操作步骤实时显示在屏幕上，用户能随时了解任务执行进度，在必要时请求进度摘要。
三合一系统：整合 Operator（网页交互能力）、Deep Research（信息整合与分析）和 ChatGPT 本体（自然语言理解与智能推理），形成统一智能体系统。
内置工具支持：内置图形/文本浏览器、终端和 API 调用器等工具，支持手机端使用，任务完成后自动推送结果。
第三方应用连接：支持连接 Gmail、GitHub 等第三方应用，深度嵌入用户真实工作流。
安全与权限控制：在执行敏感操作（如提交表单、发送邮件）前，明确征得用户许可，自动拒绝高风险任务，如金融交易或提供法律建议。

ChatGPT Agent的性能表现

Humanity’s Last Exam (HLE)：单次作答准确率达到43.1分（刷新纪录），启用并行八路推理准确率进一步提升至44.4%。
FrontierMath 数学基准：在具备终端代码执行能力的前提下，准确率达到27.4%，远高于此前模型。
DSBench（数据科学任务）：数据分析准确率达到89.9%，建模准确率达到85.5%，远超人类平均水平。
SpreadsheetBench（电子表格编辑任务）：性能达到45.5%，超过Excel中Copilot的20.0%。
BrowseComp（网页浏览任务）：准确率达到68.9%，刷新行业领先水平（SOTA）。
WebArena（网页任务执行能力）：表现优于基于o3的CUA模型。

如何使用ChatGPT Agent

访问官网：网页端访问ChatGPT官网，移动端下载ChatGPT App。
激活智能体模式：
- 桌面端：打开ChatGPT界面。在编辑器中的工具下拉菜单中选择“智能体模式”。
- 移动端：打开ChatGPT App。在聊天界面左下角的“工具”下拉菜单中选择“Agent模式”。
描述任务：在聊天框中用自然语言清晰地描述想要完成的任务。
实时观察操作流程：ChatGPT Agent在屏幕上实时展示操作步骤，例如浏览网页、筛选信息、运行代码等。随时能中断任务，修改指令或接管操作。
任务执行与结果生成：Agent根据任务需求自动选择合适的工具，任务完成后，Agent生成可下载的输出内容，例如幻灯片、电子表格或文档。
设置周期性任务：如果需要定期执行某些任务（如每周生成周度报告），在Agent界面中设置周期性任务。