OpenAI最新推出的ChatGPT Agent本质上是Operator(视觉浏览器操控)与DeepResearch(深度网络研究)的功能整合体,其核心特点与局限如下:
技术架构
• 首创三端协同:同时调度文本浏览器、图形界面浏览器和代码终端,运行于统一虚拟机环境
• 非简单微调:通过端到端强化学习训练工具使用能力,非o3的直接迭代
• 任务自动化:支持5-30分钟长时任务执行,可设置周期性重复(如日报生成)
功能升级
1. 弥补原有缺陷:
• Operator的网页滚动低效 ←→ DeepResearch的信息抓取优势互补
• DeepResearch的交互短板 ←→ Operator的视觉操控能力填补
2. 新增文档生成:支持研究报告/PPT/电子表格等(但PPT设计被评"素丑")
3. 数据连通性:可授权接入Google Drive/Gmail等个人数据源
现存问题
• 发布即崩溃:服务器承压能力未改善
• 交互延迟:任务响应时间仍显冗长
• 功能冗余:o3已具备部分Agent特性,新版本创新性不足
• 体验割裂:操作流程需在三种终端间手动切换
行业影响
• 标志OpenAI从单一模型转向"工具链整合"战略
• 暴露多模态协同的技术瓶颈(视觉/文本/代码的流畅衔接待突破)
• 免费版40次/月、Pro版400次/月的额度设计,反映商业化提速趋势
(注:Operator将逐步下线,其能力已融入新Agent)