GPT-OSS架构创新汇总，助力理解大语言模型设计趋势：•SlidingWi

爱生活爱珂珂 2025-08-06 07:29:38

GPT-OSS架构创新汇总，助力理解大语言模型设计趋势：

• Sliding Window Attention（滑动窗口注意力）：借鉴Transformer-XL（arxiv.org/abs/1901.02860）和Sparse Transformer（arxiv.org/abs/1904.10509），通过分段缓存上下文，实现长序列依赖捕获，兼顾效率与效果，避免内存爆炸。

• Mixture of Experts（专家混合，MoE）：沿用Switch Transformer方案（arxiv.org/abs/2101.03961），通过稀疏激活不同专家模型，极大提升参数规模与计算效率，支持百亿乃至万亿参数级模型训练。

• Rotary Position Embeddings + YaRN扩展（arxiv.org/abs/2309.00071）：RoPE有效编码位置信息，YaRN显著提升上下文窗口扩展能力，训练成本降低10倍，训练步数减半，模型可泛化到远超预训练长度的上下文。

• Attention Sinks（注意力汇聚点，arxiv.org/abs/2309.17453）：创新性引入“attention sink”机制，解决长序列流式解码时关键KV缓存的内存瓶颈，支持千万级上下文长度且无须微调，极大提升推理稳定性和速度（最高加速22倍）。

• 额外设计亮点：RMSNorm无偏置简化层归一化，跳过QK归一化和attention软上限，体现极简高效的设计哲学。

本架构融合了多篇前沿论文的核心思想，既保留了关键创新又追求实用性，代表了MoE变种Transformer的经典实践。Attention sinks虽非业内主流，但在GPT-OSS中作为可学习参数辅助修正softmax偏置，体现了设计的巧思。

源码详见👉github.com/openai/gpt-oss/blob/main/gpt_oss/torch/model.py

讨论🔗 x.com/dvruette/status/1952785818034082202 x.com/gneubig/status/1952799735900979219

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

Anthropic 刚刚发布了最新的大型语言模型Claude Opus 4.1，

2

一张图浓缩计算机科学核心学习路线，打造扎实底层认知体系，助力职业跃升：• 编程：

3

Claude Code最佳实践汇总，助力打造高效、可控且可持续的AI辅助开发体系

4

优化检索之前，先解决好chunking（文本切片）策略，才能打通用户与信息之间的

5

Anthropic 的全新 Prompt Engineering 指南，涵盖元提

6

GPT-OSS架构创新汇总，助力理解大语言模型设计趋势：• Sliding Wi

7

OpenAI刚刚发布了两个开源权重语言模型：gpt-oss-120b和gpt-o

8

dots.ocr：3B参数级多语言OCR与文档解析SOTA模型，支持100+语言

9

早！[太阳] 早安

10

Claude Code Templates 集合提供高效 AI 代码开发起点，助

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

格力把高管送去火焰山猴哥都抹汗的地方朱总靠空调坚持了下来。😅孙悟空要是有这条

2

被董明珠说中了！内鬼作乱，国产芯片出了大问题，技术遭严重泄露，然而一查却发现，主

3

我有种预感，中国芯片行业要变天了。不是因为政策扶持，也不是技术突破，而是上海

4

罗永浩连怼网友罗永浩怎么了罗永浩连续发微博怼网友，他怎么了

5

很庆幸买了荣耀400Pro，没买华为Nova14Pro。最近换手机，在华为Nov

6

苹果公司第三财季财报太靓丽了，仅仅iPhone16的营业收入就达到了445亿美

7

红米新机Redmi15外观渲染图曝光：后置三摄采用纵向排列的矩形Deco今

8

25年公认最强拍照手机，有你在用的吗。

9

马斯克已确认，三星拿下特斯拉165亿美元的合作，将为特斯拉生产芯片[doge]我

10

以后不会再给女朋友买iPhone手机，并不是iPhone手机不好，而是她买了一大

科技最新文章

1

2025年618，iPhone16Pro卖54992026年618，iPho

2

荣耀Power2来了！10000mAh+骁龙8sGen4！荣耀倒逼充电宝彻底退市

3

黄仁勋最近有点烦，他卖给中国的AI芯片出事了英伟达被国家网信办约谈，原因是H

4

黄仁勋把算力砍掉80%的H20芯片卖给中国，没想到被中国工程师成功破解，结果发现

5

黄仁勋把算力砍掉80%的H20芯片卖给中国，没想到被中国工程师成功破解，结果发现

6

被董明珠说中了！内鬼作乱，国产芯片出了大问题，技术遭严重泄露，然而一查却发现，主

7

我有种预感，中国芯片行业要变天了。不是因为政策扶持，也不是技术突破，而是上海

8

最近荣耀Magic7Pro和一加Ace5Pro都挺热门的，这两款机型怎么选呢

9

华为杀疯了，Mate80最狠的升级曝光！华为Mate80系列要“杀疯”了！虽然

10

按照国际惯例，今年三大旗舰手机分别是iPhone17Ultra，三星S26U