九卦 | OpenAI“零人类代码”背后的Harness，金融机构能复制吗？

作者 | 百融金融行业研究院陈敏

来源 | 九卦金融圈

最近，科技圈被一篇文章刷屏了。文章揭示了 OpenAI 内部用 AI 写代码的“终极秘密”——不是模型多牛，而是包在模型外面的那层工程系统（他们称之为 Harness）多厉害。

据说，靠着这套系统，OpenAI 的 Codex 从空仓库起步，5个月生成了近100万行代码、提交了1500个 PR，全程没有一个人类敲一行代码。

很多金融圈的 CIO、科技部老总看完后转发到群里，问下面的人：“我们能不能也搞一套？”

今天，我们不妨扒开这层硅谷滤镜，聊一个极其扎心的话题：这套让 AI 真正投产的“Harness”，为什么在金融机构里根本玩不转？真实的投产门槛，到底有多高？

在这篇刷屏的文章里，抛出了一个极其核心的概念：Harness Engineering（约束工程/套具工程）。

过去两年，大家都在卷“大模型”——今天 GPT-4o，明天 Claude 3.5，后天国产模型又迭代了。我们的直觉是：只要模型足够聪明，AI 就能替我干活。

但这篇文章告诉你：错。

如果把 AI 模型比作一台 V8发动机，那么 Harness 就是方向盘、刹车、底盘悬挂和导航系统。

为什么？因为模型再聪明，它也是个“没常识的愣头青”。

它不知道你的代码库长什么样，不知道你们的规范是什么，不知道改了 A 模块会不会把 B 模块搞崩。Harness 的作用，就是给这个愣头青套上“紧箍咒”，喂好“上下文”，配上“安全带”，让它在规定的赛道里狂飙。

文章总结了一个极其精辟的公式：AI Agent = 模型 + Harness。

并且断言：未来的核心竞争力，不是训练模型，而是“管理模型”。

看完这些，是不是觉得很振奋？觉得终于找到了 AI 落地的银弹？

别急着兴奋。

这篇文章描述的场景，是 OpenAI、Vercel 这种“数字原生”公司的乌托邦。他们的代码库是干净的，规范是统一的，历史包袱是不存在的。

但你低头看看咱们金融机构的生产环境呢？

如果要在一家银行、券商或保险公司落地这套“高质量 Harness”，你面临的不是一场技术升级，而是一场堪比“刮骨疗毒”的极其痛苦的改造运动。

你至少要翻越三座几乎不可逾越的大山：

第一座山：生产资料的“非标之痛”——AI 吃的是精粮，咱们喂的是糠

Harness 要发挥作用，首要前提是“上下文工程”。也就是要把企业的生产资料（文档、API、数据字典、架构图）标准化，塞给 AI。

第二座山：“薛定谔的熵增”——防得住人的错，防不住 AI 的混沌

文章里提到一个高级概念：熵管理。系统运行久了会慢慢烂掉（架构漂移、技术债堆积），需要定期让 AI 自己去扫描、修复。

听起来很优雅对吧？但在金融级的高可用系统里，这无异于“让孙悟空去看管蟠桃园”。

所谓的“有机地管起来”，意味着你的 Harness 不仅要能放权，还得具备瞬间评估“AI 这次改动会不会导致明天开盘结算失败”的能力。这种级别的管控工程，目前绝大多数金融机构的 DevOps 底子根本支撑不起来。

第三座山：合规与审批的“时空错位”——AI 跑得快，但合规等得起吗？

这是最致命的一击，也是所有金融科技从业者的心头血泪。

文章里的 Harness，讲究的是“反馈循环”：AI 写代码 -> 跑测试 -> 发现问题 -> 立刻重写。

这恰恰点破了金融机构的痛点：我们连“管理人类程序员”的流程都还在痛苦地优化中（敏捷转型转了五年还没转明白），现在你让我去管理一个“每秒钟产生一万次幻觉、不知疲倦、无法用企业文化感化”的数字员工？

很多领导觉得买个大模型就能降本增效，这就像觉得招了一个顶级名校毕业生，公司业绩就能翻倍一样荒谬。

没有匹配的组织土壤，再强的种子也会烂在泥里。

如果这三点做不到，所有的 AI 投产，都只能停留在“内部演示 PPT”上。

既然硅谷的“全自动驾驶”模式走不通，金融机构难道就只能干等着吗？

当然不是。我们需要的是“降维打击”与“务实构建”。

不要追求一步到位的“Big Harness”，而是从以下几个极其务实的小切口切入：

现阶段，千万不要让 AI 直接去生产环境改代码、提 PR。

最高性价比的 Harness，是把 AI 挡在“执行”之前，让它做“参谋”。

让 AI 做需求拆解和反洗钱逻辑的伪代码梳理；

让 AI 根据业务文档自动生成单元测试用例；

让 AI 在代码 Review 时找出潜在的安全漏洞。

只让 AI 产出“文本建议”，不产出“可执行变更”。这样，你们行里现有的审批流、责任认定机制完全不需要改动，人依然是最终的执行者和责任人。风险瞬间降到最低。

不要试图在整个行里推行 AI 标准化。那会触动所有部门的奶酪，注定死路一条。

找一个边缘的、独立的、哪怕是新建的微服务模块（比如某个内部管理看板、某个营销活动配置页面），在这个“无菌室”里，把文档写到极致干净，把约束配到最严。在这个小圈子里跑通“模型+Harness”的闭环，让领导看到真实的价值，再图扩张。

把文章里的 Harness 拆开看，投入产出比是完全不同的。

现在必须做、成本极低的硬约束：在现有 CI/CD 里加上更严格的 Lint 检查、强制要求 AI 生成的代码必须通过单元测试覆盖率门禁、限制 AI 只能访问特定的代码库白名单。

以后再做的软约束：复杂的多 Agent 协同工作流、让 AI 自己去重构历史技术债。这些等大模型再进化两代、幻觉问题彻底解决后再说也不迟。

如何与管理系统打通？最简单粗暴的方式：给 AI 开一个最小权限的账号。

它提交的代码，必须落入“待人工复核”队列；它触发的变更申请，必须走最严苛的审计追踪。不要为了迎合 AI 去改造你的合规系统，而是让 AI 去适应你历经考验的合规体系。

回到文章开头的那个问题：OpenAI 的“零人类代码”是谎言吗？

不是谎言，但那是属于数字原生企业的“天课”。

他们花了极大的代价，用最顶尖的工程人才，构建了一套极度复杂的 Harness，才换来了那个看似轻松的数字。

对于金融机构而言，认清现实比盲目追捧更重要：

AI 只是照妖镜，它把你企业过去十年欠下的“技术债”和“管理债”，放大了十倍照了出来。

未来在金融机构里，最值钱的不是懂得怎么调参的算法工程师，也不是会写 Prompt 的提示词工程师，而是这样一群人：

他们既懂大模型的边界，又深谙金融底层业务的曲折；

他们能把行里混乱的非标资产，抽象成 AI 能理解的标准化上下文；

他们能在严苛的合规框架下，像搭乐高一样，拼装出一套轻量、可插拔、随时能拆掉重来的“金融级 Harness”。

这不再是单纯的技术问题，这是一场融合了技术架构、数据治理、合规风控与组织变革的系统级战役。

门槛确实很高，高到足以淘汰掉那些只想赚快钱、只想拿 AI 讲故事的玩家。

但也正因为门槛高，一旦你跨过去了，这座城墙就会成为别人无法逾越的护城河。

毕竟，在金融这个行当里，跑得快从来不是第一位的，稳定高质量发展才是真正的赢家。

Harness 门槛这么高，不如找 AI 厂商直接交付价值。

百融智能（6608.HK）是一家以企业级智能体（Agent）为核心、以“硅基员工”重构千行百业生产力的人工智能科技公司。公司围绕“岗位导向 × 协同进化 × 结果计价”构建企业级智能体体系，自研多模态基础模型，并面向语音交互等高时延敏感场景打造专用语音大模型与实时语音栈，叠加多行业领域专属模型，形成覆盖感知、理解、决策与执行的一体化智能体技术底座。

在此之上，百融智能构建了以结果云 Results Cloud 为核心的结果交付体系，并由百工 AgentOS 统一承担多智能体的编排、协同、治理与审计，使智能体能够在营销、客服、人力、风控、运营等关键岗位实现低时延交互、端到端流程自动化，并围绕岗位指标进行结果交付与价值结算。

作为 AI 原生组织的先行实践者，百融智能持续以硅基员工重塑自身运营体系，形成了业内领先的硅碳协同效率与组织实践样本。百融智能已服务 8,000+ 家企事业单位，客户覆盖通信、金融、汽车出行、新能源及互联网电商等行业，是国内最早一批实现企业级智能体规模化落地的新质生产力实践标杆企业之一。

DC娱乐网

九卦 | OpenAI“零人类代码”背后的Harness，金融机构能复制吗？

热门分类