【SubQ模型登场：SSA架构破解Transformer长文本算力难题】快速

【SubQ模型登场：SSA架构破解Transformer长文本算力难题】

快速阅读：Subquadratic 推出的 SubQ 模型试图通过 SSA 架构解决 Transformer 随长度增加而计算量激增的难题。如果其宣称的千倍级计算优化成立，长上下文处理将从昂贵的奢侈品变为廉价的基础设施。

传统的 Transformer 架构就像一个随着参与者增加而变得极其混乱的社交场合，每增加一个新话题，所有人都要重新审视一遍所有人的话，这种 O(n^2) 的复杂度让长文本处理变得极其昂贵。SubQ 试图通过一种名为 SSA 的稀疏注意力机制来打破这个死循环。

它不再尝试让每个 token 都去扫描所有其他 token，而是只关注真正有意义的关系。在 1200 万 token 的超长上下文下，计算量据称减少了近 1000 倍。这不仅仅是速度变快，更像是把原本需要超级计算机才能跑动的任务，降维到了普通算力可以承受的范围内。

有网友提到，这种架构的意义在于让“全代码库推理”变得不再是幻想。目前的 RAG 模式本质上是在做信息的碎片化检索，而 SubQ 这种思路是想让模型直接把整个仓库当作内存里的运行状态。

不过，这种激进的性能提升也引发了广泛讨论。有观点认为，目前的技术报告还不够透明，需要观察这究竟是架构层面的范式转移，还是对现有稀疏注意力技术的精细微调。

如果 SubQ 能证明自己在长文本下的准确率不是靠牺牲理解力换来的，那么现有的长上下文竞争逻辑会被彻底改写。

subq.ai

DC娱乐网

【SubQ模型登场：SSA架构破解Transformer长文本算力难题】快速

热门分类

【SubQ模型登场：SSA架构破解Transformer长文本算力难题】 快速

热门分类

【SubQ模型登场：SSA架构破解Transformer长文本算力难题】快速