DC娱乐网

告别聊天框,对话式AI的黄昏与Agent的黎明

2025年初,OpenAI CEO Sam Altman在一则深夜推文中承认:“我们和你们一样讨厌模型选择器。”他宣布,

2025年初,OpenAI CEO Sam Altman在一则深夜推文中承认:“我们和你们一样讨厌模型选择器。”他宣布,原本酝酿独立发布的o3推理模型被取消,取而代之的是统一的GPT-5系统。

不到两年后,2026年6月,OpenAI官方Release Notes宣布:o3与GPT-4.5将从ChatGPT正式退役,彻底从菜单中抹去。

两则相隔不远的公告,看似只是产品线的收缩与合并,实则指向一个更深刻的趋势:以对话为核心的人机交互模式,正在丧失其核心地位。

ChatGPT问世以来,“对话框”被塑造成了AI时代的“超级入口”。但数据正在无情地击碎这一幻觉。

据网络流量数据监测,2025年1月ChatGPT在全球AI聊天机器人网页流量中的占比尚高达86.7%,而到2026年4月,这一数字已骤降至57%至64%之间。市场老大地位的动摇,固然有竞争加剧的因素,但更深层的原因是:

用户正在用脚投票,对“只会回答”的AI失去了耐心。

如果说过去十年人工智能最重要的进步是让机器“学会了说话”,那么站在2026年这个时间点上,一个越来越清晰的共识正在形成:只会说话,已经不够了。

2026年,不是AGI之年,但极有可能是AI第一次真正“能干活”的一年。

被“简化”的对话入口

要理解聊天界面为何正在失去主角地位,需要回到OpenAI在产品路线上的关键调整。

2025年2月,Sam Altman宣布,原定作为GPT-5发布的“Orion”模型被降格为GPT-4.5发布,同时o3模型不再作为独立产品亮相,其技术能力将被整合进GPT-5。

这一“去复杂度、求统一”的决策,本质上是OpenAI对产品哲学的彻底反思,不是做大做强独立模型,而是让模型在用户面前隐去,让智能成为“一次性集成”的体验。

GPT-4.5于2026年4月正式发布。根据官方披露,它在理解人类意图方面表现出增强能力,回应更加自然,在写作和设计等创意任务上表现更优。

但与此同时,在AIME和GPQA等高级学术基准测试中,它在推理能力上落后于竞争对手,且不支持逼真的双向语音模式。更值得关注的是其商业模式的反常:OpenAI在GPT-4.5上设定了高昂的定价,每百万输入token收费75美元,输出收费150美元,而GPT-4o的定价仅为2.5美元和10美元。

如此高的定价,意味着GPT-4.5从未真正作为“大众产品”面向C端用户。

果然,仅在发布两个多月后的2026年6月,OpenAI便宣布GPT-4.5将于6月27日正式下线,整个生命周期不足三个月。

同期,o3也被宣告从ChatGPT退役,不过API端仍然保留访问权限。官方公告使用了“从菜单上抹掉”这样的措辞,非常直白地表明了态度:那些藏在模型选择器里的旧选项,正在被OpenAI主动清理掉。

这背后透露的信号是:对话框作为“模型陈列柜”的形式,已经到了生命周期的末尾。

如果说GPT-4.5是最后一代“非思维链”的通用对话模型,那么GPT-5则将被设计成一个高度集成的生态系统:能够结合语音、画布、搜索和深度研究功能,让用户无须在不同的模型之间来回切换。

Altman以“我们希望AI能够直接为你工作”来定义这一转变,如果说过去的AI需要用户来“驱动”,那么未来的AI将直接“开工”。

这一表述,已经暗含了“对话框将不再作为核心交互界面”的深层设计逻辑。

从“询问者”到“执行者”,Agent时代的到来

对话模式的局限,早在产品路线的调整之前就已经被研究者预见到了。OpenAI自身划分的AI能力五级框架中,Level 1“聊天机器人”和Level 2“推理者”还只能回答问题或解决问题,而Level 3“智能体(Agent)”则能够代表用户自主执行长时间、多步骤的任务。

换句话说,对话只是智能体的一个底层功能,而绝非全部。

LangChain创始人Harrison Chase在与红杉资本的对话中指出:当AI只能在对话框里回答问题,它只是一个高级接口;只有当AI能跨越时间、状态和工具,围绕同一目标持续推进、自我修正、完成闭环,它才真正开始“做事”。

他将当前的AI分为“Talkers”和“Doers”两类:前者擅长生成漂亮答案和单轮补全,本质上是“一次性响应系统”;后者才能承担现实世界的高价值工作,而这些工作从来不是“一问一答”,而是需要长期推进、反复试错、频繁调用外部工具。

OpenAI在“Agent”方向上的投入已经是非常实质性的。2025年1月,公司以“Operator”的形式推出了第一个计算机使用智能体(CUA),通过截图感知浏览器环境,并用模拟鼠标和键盘的操作来执行任务。

2025年7月,Operator被并入ChatGPT主产品,以“Agent Mode”的形式向用户开放。到了2026年3月,GPT-5.4的发布标志着计算机使用能力发生了质的飞跃:该模型在OSWorld-Verified测试中达到了75.0%的成功率,超越人类基准的72.4%。

更关键的是,计算机使用功能被纳入了通用模型,不再作为独立的独立技术模块存在。

除了计算机操作,Codex系列也在Agent化。GPT-5.3-Codex被设计为代理风格的开发模型,能够使用工具、操作计算机、端到端地完成长任务。

它在OSWorld-Verified上得分64.7%,相较前代模型的38.2%有显著提升。安全领域同样是一个关键衡量指标:

该模型成为OpenAI首个在网络安全任务中被划分为“高能力”级别的模型,体现了AI从“回答问题”向“执行任务”的进阶。

但在Harrison Chase看来,Agent的本质不在于技术能力本身,而在于“长时程”的结构性跃迁:AI能否在更长周期内保持目标一致性、管理中间状态,并在复杂环境中持续行动。

这决定了对话形式的AI必须让位于执行导向的AI系统——用户不再需要在一个对话框里“敲一下键盘、等一个回复”,AI将在后台持续运行,直到任务完成。

多模态与语音界面,对话框之外的交互

除了执行力的提升,交互方式的多元化也在瓦解“对话框”作为唯一入口的地位。

对话式的文本输入,本质上是效率极低的交互方式,人类之间的对话尚需借助语音、眼神、手势来传递信息,AI与人类之间却长期被压缩在冷冰冰的文字框里,这本身就是一种媒介限制。

2026年5月,OpenAI在Realtime API中推出了三款新的语音模型,方向非常明确:让语音成为AI的“原生交互语言”。

其中GPT-Realtime-2是首个具备GPT-5级别推理能力的语音模型,能够在实时对话中执行推理、调用工具,并处理用户的打断与纠正。

此前,语音模型多为单向的“听写—输出”流程,而现在,语音成了可以理解复杂逻辑并进行自主行动的界面。

谷歌同月发布的Gemini Omni同样值得关注。与其他多模态模型不同,Omni在设计之初就定位为“原生多模态”。在底层架构上统一处理文本、图像、音频、视频和代码。这意味着用户不需要通过打字输入需求,而是可以直接截取UI界面让模型生成代码,或者通过语音进行多轮复杂指令。

2026年5月的谷歌I/O大会上,核心主题是Gemini从聊天机器人向自主智能体的演进,其中Project Astra被定位为通用AI助手的愿景,另一款名为“Remy”的“全天候”智能体甚至在用户无需直接指令的情况下,可以跨应用执行购物和日程安排等任务。

谷歌的做法表明:用户不应该被要求“打开一个对话框、输入、等待”才能让AI做事,AI应该嵌入操作系统中,以背景化的方式持续服务。

更令人信服的证据来自于物理界面层面。2026年1月,OpenAI首席全球事务官Chris Lehane对外表示,OpenAI将在2026年下半年推出首款ChatGPT驱动的硬件设备。

Axios的报告进一步披露,该设备很可能是一款无屏幕的可穿戴装置,佩戴在耳后,形态类似于微型耳麦,能够随时待命。

值得关注的背景信息是,OpenAI在2025年底以65亿美元的估值收购了由苹果前设计总监Jony Ive创立的IO设计公司。

Sam Altman曾公开表示,他们与Ive已经合作设计出了一个原型,该设备将旨在过滤“数字噪音”,避免频繁通知的打扰,提供一种屏幕外的、环境式的AI体验。

无屏幕、无对话框、无键盘输入的AI助手,是不是与现行的“聊天机器人”形态彻底断裂?当一个AI实体已经“长在用户的耳朵上”,以语音对话和主动感知的方式完成任务,传统的聊天框就彻底失去了存在的物理意义。

与此同时,更深刻的嵌入方式也在发生。根据一位业内人士的分析,Chatbot作为AI时代的“超级入口”叙事之所以失败,根本原因在于它是一个昂贵的算力消耗者而非具有网络效应的产品。

与传统软件的流量效应不同,用户的每一次交互都需要调动云端GPU阵列,用户增长带来的不是边际成本递减,反而推高了运营支出。这决定了Chatbot不可能成为商业上可持续的“入口”模式。

真正有价值的方向,是将AI嵌入业务流程、操作系统和硬件底层,让它成为一种“背景式”的基础设施,而非一个需要用户主动打开的App。

有分析指出,未来AI将如同电力渗入家家户户一般,渗透进软件的功能组件和物理硬件层的耦合之中,智能眼镜、可穿戴设备正在摆脱“打开App”的动作,直接将AI置于现实世界交互之上。

LangChain创始人Harrison Chase对此做出了一个高度简练的判断:“如果说过去的AI是Talkers的时代,那么2026年则是Doers的元年。”

聊天框消失后的AI世界

从OpenAI取消GPT-4.5和o3模型独立发布,到全面转向Agent化和嵌入式硬件;从谷歌将其AI重心从聊天机器人转移到自主智能体,到GPT-Realtime语音模型赋予AI实时推理与行动能力,可以清晰地看到一条主线:

AI从“帮助人类回答问题”的工具,演变为“替人类完成事务”的代理系统。

这一转变的内在驱动力是多方面的。产品层面,混乱的模型选择器让用户疲惫,统一、简化的体验是必然选择。

成本层面,对话式AI的边际成本悖论让“人人拥有一个对话框”的商业梦想难以为继。

用户需求层面,老板、企业主、普通消费者并不需要AI每天陪着聊天,他们需要的是AI能订票、写代码、处理数据、在线购物。

因此,AI聊天的时代或许真的需要终结了。终结,不是意味着AI不再具备对话能力,恰恰相反,对话会成为一种默认定式。

就像今天我们在手机上用手指滑动一样自然,不再需要一个专门的“聊天”界面来标识它。终结的意思是,对话框作为人类与AI之间的唯一通道,将让位于更多元、更智能、更隐形的交互形态。

下一代人机交互的窗口,或将是佩戴在耳后的无屏幕语音助手,或将是嵌入操作系统的多模态智能体,也可能是藏在浏览器中的计算机使用Agent。

用户将从一个“打字提问者”,变成一名“任务委托者”,只给出一个模糊的目标,AI便自动拆解、执行、修正,最终交付结果。

聊天框将不再是用户打开AI的第一扇门。

真正有价值的事情,发生在门关上之后,AI在后台默默地、持续地为用户交付结果。