GPT-OSS架构创新汇总,助力理解大语言模型设计趋势:
• Sliding Window Attention(滑动窗口注意力):借鉴Transformer-XL(arxiv.org/abs/1901.02860)和Sparse Transformer(arxiv.org/abs/1904.10509),通过分段缓存上下文,实现长序列依赖捕获,兼顾效率与效果,避免内存爆炸。
• Mixture of Experts(专家混合,MoE):沿用Switch Transformer方案(arxiv.org/abs/2101.03961),通过稀疏激活不同专家模型,极大提升参数规模与计算效率,支持百亿乃至万亿参数级模型训练。
• Rotary Position Embeddings + YaRN扩展(arxiv.org/abs/2309.00071):RoPE有效编码位置信息,YaRN显著提升上下文窗口扩展能力,训练成本降低10倍,训练步数减半,模型可泛化到远超预训练长度的上下文。
• Attention Sinks(注意力汇聚点,arxiv.org/abs/2309.17453):创新性引入“attention sink”机制,解决长序列流式解码时关键KV缓存的内存瓶颈,支持千万级上下文长度且无须微调,极大提升推理稳定性和速度(最高加速22倍)。
• 额外设计亮点:RMSNorm无偏置简化层归一化,跳过QK归一化和attention软上限,体现极简高效的设计哲学。
本架构融合了多篇前沿论文的核心思想,既保留了关键创新又追求实用性,代表了MoE变种Transformer的经典实践。Attention sinks虽非业内主流,但在GPT-OSS中作为可学习参数辅助修正softmax偏置,体现了设计的巧思。
源码详见👉github.com/openai/gpt-oss/blob/main/gpt_oss/torch/model.py
讨论🔗 x.com/dvruette/status/1952785818034082202 x.com/gneubig/status/1952799735900979219