告别聊天框，对话式AI的黄昏与Agent的黎明

2025年初，OpenAI CEO Sam Altman在一则深夜推文中承认：“我们和你们一样讨厌模型选择器。”他宣布，原本酝酿独立发布的o3推理模型被取消，取而代之的是统一的GPT-5系统。

不到两年后，2026年6月，OpenAI官方Release Notes宣布：o3与GPT-4.5将从ChatGPT正式退役，彻底从菜单中抹去。

两则相隔不远的公告，看似只是产品线的收缩与合并，实则指向一个更深刻的趋势：以对话为核心的人机交互模式，正在丧失其核心地位。

ChatGPT问世以来，“对话框”被塑造成了AI时代的“超级入口”。但数据正在无情地击碎这一幻觉。

据网络流量数据监测，2025年1月ChatGPT在全球AI聊天机器人网页流量中的占比尚高达86.7%，而到2026年4月，这一数字已骤降至57%至64%之间。市场老大地位的动摇，固然有竞争加剧的因素，但更深层的原因是：

用户正在用脚投票，对“只会回答”的AI失去了耐心。

如果说过去十年人工智能最重要的进步是让机器“学会了说话”，那么站在2026年这个时间点上，一个越来越清晰的共识正在形成：只会说话，已经不够了。

2026年，不是AGI之年，但极有可能是AI第一次真正“能干活”的一年。

被“简化”的对话入口

要理解聊天界面为何正在失去主角地位，需要回到OpenAI在产品路线上的关键调整。

2025年2月，Sam Altman宣布，原定作为GPT-5发布的“Orion”模型被降格为GPT-4.5发布，同时o3模型不再作为独立产品亮相，其技术能力将被整合进GPT-5。

这一“去复杂度、求统一”的决策，本质上是OpenAI对产品哲学的彻底反思，不是做大做强独立模型，而是让模型在用户面前隐去，让智能成为“一次性集成”的体验。

GPT-4.5于2026年4月正式发布。根据官方披露，它在理解人类意图方面表现出增强能力，回应更加自然，在写作和设计等创意任务上表现更优。

但与此同时，在AIME和GPQA等高级学术基准测试中，它在推理能力上落后于竞争对手，且不支持逼真的双向语音模式。更值得关注的是其商业模式的反常：OpenAI在GPT-4.5上设定了高昂的定价，每百万输入token收费75美元，输出收费150美元，而GPT-4o的定价仅为2.5美元和10美元。

如此高的定价，意味着GPT-4.5从未真正作为“大众产品”面向C端用户。

果然，仅在发布两个多月后的2026年6月，OpenAI便宣布GPT-4.5将于6月27日正式下线，整个生命周期不足三个月。

同期，o3也被宣告从ChatGPT退役，不过API端仍然保留访问权限。官方公告使用了“从菜单上抹掉”这样的措辞，非常直白地表明了态度：那些藏在模型选择器里的旧选项，正在被OpenAI主动清理掉。

这背后透露的信号是：对话框作为“模型陈列柜”的形式，已经到了生命周期的末尾。

如果说GPT-4.5是最后一代“非思维链”的通用对话模型，那么GPT-5则将被设计成一个高度集成的生态系统：能够结合语音、画布、搜索和深度研究功能，让用户无须在不同的模型之间来回切换。

Altman以“我们希望AI能够直接为你工作”来定义这一转变，如果说过去的AI需要用户来“驱动”，那么未来的AI将直接“开工”。

这一表述，已经暗含了“对话框将不再作为核心交互界面”的深层设计逻辑。

从“询问者”到“执行者”，Agent时代的到来

对话模式的局限，早在产品路线的调整之前就已经被研究者预见到了。OpenAI自身划分的AI能力五级框架中，Level 1“聊天机器人”和Level 2“推理者”还只能回答问题或解决问题，而Level 3“智能体（Agent）”则能够代表用户自主执行长时间、多步骤的任务。

换句话说，对话只是智能体的一个底层功能，而绝非全部。

LangChain创始人Harrison Chase在与红杉资本的对话中指出：当AI只能在对话框里回答问题，它只是一个高级接口；只有当AI能跨越时间、状态和工具，围绕同一目标持续推进、自我修正、完成闭环，它才真正开始“做事”。

他将当前的AI分为“Talkers”和“Doers”两类：前者擅长生成漂亮答案和单轮补全，本质上是“一次性响应系统”；后者才能承担现实世界的高价值工作，而这些工作从来不是“一问一答”，而是需要长期推进、反复试错、频繁调用外部工具。

OpenAI在“Agent”方向上的投入已经是非常实质性的。2025年1月，公司以“Operator”的形式推出了第一个计算机使用智能体（CUA），通过截图感知浏览器环境，并用模拟鼠标和键盘的操作来执行任务。

2025年7月，Operator被并入ChatGPT主产品，以“Agent Mode”的形式向用户开放。到了2026年3月，GPT-5.4的发布标志着计算机使用能力发生了质的飞跃：该模型在OSWorld-Verified测试中达到了75.0%的成功率，超越人类基准的72.4%。

更关键的是，计算机使用功能被纳入了通用模型，不再作为独立的独立技术模块存在。

除了计算机操作，Codex系列也在Agent化。GPT-5.3-Codex被设计为代理风格的开发模型，能够使用工具、操作计算机、端到端地完成长任务。

它在OSWorld-Verified上得分64.7%，相较前代模型的38.2%有显著提升。安全领域同样是一个关键衡量指标：

该模型成为OpenAI首个在网络安全任务中被划分为“高能力”级别的模型，体现了AI从“回答问题”向“执行任务”的进阶。

但在Harrison Chase看来，Agent的本质不在于技术能力本身，而在于“长时程”的结构性跃迁：AI能否在更长周期内保持目标一致性、管理中间状态，并在复杂环境中持续行动。

这决定了对话形式的AI必须让位于执行导向的AI系统——用户不再需要在一个对话框里“敲一下键盘、等一个回复”，AI将在后台持续运行，直到任务完成。

多模态与语音界面，对话框之外的交互

除了执行力的提升，交互方式的多元化也在瓦解“对话框”作为唯一入口的地位。

对话式的文本输入，本质上是效率极低的交互方式，人类之间的对话尚需借助语音、眼神、手势来传递信息，AI与人类之间却长期被压缩在冷冰冰的文字框里，这本身就是一种媒介限制。

2026年5月，OpenAI在Realtime API中推出了三款新的语音模型，方向非常明确：让语音成为AI的“原生交互语言”。

其中GPT-Realtime-2是首个具备GPT-5级别推理能力的语音模型，能够在实时对话中执行推理、调用工具，并处理用户的打断与纠正。

此前，语音模型多为单向的“听写—输出”流程，而现在，语音成了可以理解复杂逻辑并进行自主行动的界面。

谷歌同月发布的Gemini Omni同样值得关注。与其他多模态模型不同，Omni在设计之初就定位为“原生多模态”。在底层架构上统一处理文本、图像、音频、视频和代码。这意味着用户不需要通过打字输入需求，而是可以直接截取UI界面让模型生成代码，或者通过语音进行多轮复杂指令。

2026年5月的谷歌I/O大会上，核心主题是Gemini从聊天机器人向自主智能体的演进，其中Project Astra被定位为通用AI助手的愿景，另一款名为“Remy”的“全天候”智能体甚至在用户无需直接指令的情况下，可以跨应用执行购物和日程安排等任务。

谷歌的做法表明：用户不应该被要求“打开一个对话框、输入、等待”才能让AI做事，AI应该嵌入操作系统中，以背景化的方式持续服务。

更令人信服的证据来自于物理界面层面。2026年1月，OpenAI首席全球事务官Chris Lehane对外表示，OpenAI将在2026年下半年推出首款ChatGPT驱动的硬件设备。

Axios的报告进一步披露，该设备很可能是一款无屏幕的可穿戴装置，佩戴在耳后，形态类似于微型耳麦，能够随时待命。

值得关注的背景信息是，OpenAI在2025年底以65亿美元的估值收购了由苹果前设计总监Jony Ive创立的IO设计公司。

Sam Altman曾公开表示，他们与Ive已经合作设计出了一个原型，该设备将旨在过滤“数字噪音”，避免频繁通知的打扰，提供一种屏幕外的、环境式的AI体验。

无屏幕、无对话框、无键盘输入的AI助手，是不是与现行的“聊天机器人”形态彻底断裂？当一个AI实体已经“长在用户的耳朵上”，以语音对话和主动感知的方式完成任务，传统的聊天框就彻底失去了存在的物理意义。

与此同时，更深刻的嵌入方式也在发生。根据一位业内人士的分析，Chatbot作为AI时代的“超级入口”叙事之所以失败，根本原因在于它是一个昂贵的算力消耗者而非具有网络效应的产品。

与传统软件的流量效应不同，用户的每一次交互都需要调动云端GPU阵列，用户增长带来的不是边际成本递减，反而推高了运营支出。这决定了Chatbot不可能成为商业上可持续的“入口”模式。

真正有价值的方向，是将AI嵌入业务流程、操作系统和硬件底层，让它成为一种“背景式”的基础设施，而非一个需要用户主动打开的App。

有分析指出，未来AI将如同电力渗入家家户户一般，渗透进软件的功能组件和物理硬件层的耦合之中，智能眼镜、可穿戴设备正在摆脱“打开App”的动作，直接将AI置于现实世界交互之上。

LangChain创始人Harrison Chase对此做出了一个高度简练的判断：“如果说过去的AI是Talkers的时代，那么2026年则是Doers的元年。”

聊天框消失后的AI世界

从OpenAI取消GPT-4.5和o3模型独立发布，到全面转向Agent化和嵌入式硬件；从谷歌将其AI重心从聊天机器人转移到自主智能体，到GPT-Realtime语音模型赋予AI实时推理与行动能力，可以清晰地看到一条主线：

AI从“帮助人类回答问题”的工具，演变为“替人类完成事务”的代理系统。

这一转变的内在驱动力是多方面的。产品层面，混乱的模型选择器让用户疲惫，统一、简化的体验是必然选择。

成本层面，对话式AI的边际成本悖论让“人人拥有一个对话框”的商业梦想难以为继。

用户需求层面，老板、企业主、普通消费者并不需要AI每天陪着聊天，他们需要的是AI能订票、写代码、处理数据、在线购物。

因此，AI聊天的时代或许真的需要终结了。终结，不是意味着AI不再具备对话能力，恰恰相反，对话会成为一种默认定式。

就像今天我们在手机上用手指滑动一样自然，不再需要一个专门的“聊天”界面来标识它。终结的意思是，对话框作为人类与AI之间的唯一通道，将让位于更多元、更智能、更隐形的交互形态。

下一代人机交互的窗口，或将是佩戴在耳后的无屏幕语音助手，或将是嵌入操作系统的多模态智能体，也可能是藏在浏览器中的计算机使用Agent。

用户将从一个“打字提问者”，变成一名“任务委托者”，只给出一个模糊的目标，AI便自动拆解、执行、修正，最终交付结果。

聊天框将不再是用户打开AI的第一扇门。

真正有价值的事情，发生在门关上之后，AI在后台默默地、持续地为用户交付结果。

DC娱乐网

告别聊天框，对话式AI的黄昏与Agent的黎明

热门分类