DC娱乐网

大模型推理过程中的prefill和decode

Prefill 阶段可以理解为是批量预处理。优势主要有两点:一是避免了重复计算,二是能够充分利用 GPU 的并行能力,提高显卡利用率,从而显著缩短首 token 的响应时间。 进入 Decode 阶段后,模型以自回归的方式逐步生成 token,使用kv cache能避免重复执行之前token的自注意力运算。 ✅为什么要区分这两个阶段? 因为在推理优化中,Prefill 和 Decode 所面临的资源瓶颈完全不同——Prefill 更依赖算力,Decode 则更受带宽限制。因此,业内有不少方法会针对这两个阶段分别做拆分和并行优化,比如 DistServe 会将这两步分配到不同的 GPU 上,或者通过复用 KV cache 来大幅降低显存压力。 理解了这两个阶段,再去看大模型的性能优化方案,就能明白为什么大家都在关注 KV cache 优化和分布式训练。