全网开测GPT开源模型GPT开源模型技术架构被扒全网开扒OpenAI开源模型GP

量子位看科技 2025-08-07 11:29:23

全网开测GPT开源模型GPT开源模型技术架构被扒

全网开扒OpenAI开源模型GPT-oss,惊喜发现……

奥特曼还是谦虚了,这性能岂止是o4-mini的水平,直接SOTA击穿一众开源模型。

不仅在多项基准测试中名列前茅,性能超越DeepSeek R1、Qwen3、Kimi K2等模型,而且最小的20B版本已经能在16GB内存设备上流畅运行。

玩法也是多到离谱:alphaXiv迅速将模型配置到官网,率先用于论文理解。【图2】还有网友测试了20个小球物理运动情况,GPT-oss完美通过。【图3】

然而,GPT-oss默认使用英语进行训练,这也导致在多其他语言场景下表现偏弱。

官方也很快给出解决方案:下载并格式化Multilingual-Thinking数据集,并在数据集的基础上对模型进行LoRA微调,可以应对其他语言的需求。

此外,技术架构也被扒了个底朝天。前威斯康星大学教授Sebastian Raschka和MIT研究员Adam Zweiger等大佬对其进行了全面拆解:

0 阅读:13
量子位看科技

量子位看科技

感谢大家的关注