DC娱乐网

OpenAI最强模型GPT-5.4重磅发布 首次支持原生操控电脑 超越人类

3月6日,OpenAI推出GPT-5.4,这不是一次简单更新,它有两个版本,一个给个人用户叫Thinking,一个给公司用叫Pro,最特别的是它能直接操作电脑,不是通过接口调用,而是像真人那样看着屏幕点击鼠标敲打键盘,可以打开Excel修改数据,进入PPT调整格式,还能在浏览器里填写表单,这听起来像科幻电影里的场景,但它确实做到了。

测试数据说它在操作系统任务上成功率有75%,比人类平均的72.4%还要高一些,浏览器操作任务完成率是67.3%,要是只看截图交互类任务,比如你截个图发给它让它填表,成功率能到92.8%,它还能记住100万token的内容,相当于连续工作几小时不丢上下文,以前AI写代码比较慢,现在编码能力没退步,反而更快了,错误也少了,整段回答出问题的概率降低了18%。

有人觉得这个服务太贵,API输入收费每百万token两美元五,输出收十五美元,企业版价格更高,输入三十美元,输出一百八十美元,算下来生成一页专业报告可能得花好几美元,实际使用起来,因为效率提高了,很多任务的总成本反而降低了,比如以前需要三个人花两天时间完成的财务分析,现在AI一个人两小时就能搞定,虽然单次调用费用高,但整体上节省了金钱和时间,这说明它不是让人多花钱买方便,而是改变了用人方式。

过去我们总说人工智能是个帮手,现在它已经能走完整个流程了,比如打开软件、找到模板、插入图表、同步链接、调整颜色、导出PDF文件,这不再是简单加几个功能,而是把整个工作流程都接过去了,尤其是那些老旧的系统,像没有接口、界面过时、文档混乱的财务或客户关系管理系统,人工智能通过截图和模拟操作就能完成任务,以前这类系统只能靠人工慢慢处理,现在人工智能成了唯一能看懂这些系统的员工。 新功能里有个"思考预览",就是AI一边想一边告诉你它下一步要做什么,你可以中途喊停或者改个方向,这其实悄悄改变了人和AI的关系,你不再是等结果出来再挑刺,而是和它一起做决策,有点像搭班子,你管方向,它扛执行,中间随时商量。

问题藏得很深,OpenAI提出了CoT可控性这个新标准,但没讲清楚具体怎么控制,比如AI会不会擅自修改银行报表,或者误发邮件,目前没人公开验证过这些情况。92.8%的截图操作成功率看着挺高,可既然它能截屏,理论上就能操控任何图形界面,包括内网里那些老旧没人维护的系统。更麻烦的是,它拥有100万token的上下文容量,能让AI连续运行好几个小时,如果中途逻辑跑偏了,等你发现时可能已经改掉好几份合同了。 我试过让智能助手处理一个简单报销流程,就是上传发票截图、识别金额、填写表格、核对科目、生成审批单,它做完了这些步骤,却把差旅费标成招待费,这个错误在第四步才出现,前面几步都对,人眼扫一遍很难发现,因为它步骤很顺,像真人做的,这种合理错误最难防备。

现在企业分成两派,一派急着用上Pro版AI,把基础文职和数据整理都交给它做,另一派还在犹豫观望,担心出问题,其实问题不在技术不够,而是责任界限不清楚,AI干的活儿如果出错,这个责任该由程序员承担,还是提示词工程师负责,或者归到那个点击运行按钮的人头上。 GPT-5.4思考版已经换掉旧系统,老版本定在2026年6月5日停用,我们现在就站在旧工具时代的末尾,很多人还没发现,不是人工智能变强了,是“工作”这个概念正在被重新解释,原来需要人手操作的事情,现在只需要一个能点击鼠标的程序就能完成。