DC娱乐网

Dense 模型和 MoE 模型的对比

Dense模型和MoE模型一个是全量激活、一个是稀疏激活。 那么同样30B左右大小的参数量,在下面几种情况下应该选择哪种模型呢? 1️⃣处理复杂长文本 2️⃣需要极高并发的较简单任务 3️⃣超长上下文场景 理解 MoE,不能只看它省了什么,更要看它为了这份⾼效牺牲了什么。