GPT-o3爆火,让我想到之前看过的一篇叫做CogCom的工作,也实现了类似o3的带有操作能力的视觉推理。今天赶紧来和大家分享一下!
GPT-o3和CogCoM代表了视觉推理的两种技术路径:前者通过强化学习和动态工具调用实现“隐性智能”,后者通过显式操作链和可解释性满足“透明需求”。
看了下作者,发现这篇居然是智谱一年前发的,模型当时就开源了,看来智谱的技术积淀确实是很深厚。最近他们还开源了新的基模GLM-4-Air和推理模型GLM-Z1-Air,期待他们后续的表现。
关于o3和CogCom欢迎大家在评论区讨论呀!






