有趣的文章: gzip(就是那个linux里自带的压缩程序)能成为一个语言模型吗?答案自然是可以(虽然效果不好)。因为:压缩即预测
文章的理论基础是 压缩等价于预测:压缩器会用更少的比特表示它“预期”的内容,用更多比特表示意外内容。信息论里,一个符号需要的编码长度大约是 -log₂ p,概率越高,需要的比特越少。因此,任何压缩器内部其实都隐含了某种概率模型。gzip 使用 DEFLATE,它会在最近 32 KiB 的滑动窗口里寻找重复片段;如果候选续写像窗口里的已有文本,就能被编码成很便宜的回指,因此压缩长度更短。
语言建模本质上是在预测下一个 token,而好的预测器天然也是好的压缩器。gzip 没有神经网络、没有训练参数,也不理解语义,但只要它能利用重复模式,就能产生一点类似“续写”的行为。
文章地址:nathan.rs/posts/gzip-lm/代码实现:github.com/nathan-barry/gzipt
AI创造营
