【Alisa的大语言模型之书：神经网络与大模型的“暴力美学”手册】 “Alis

【Alisa的大语言模型之书：神经网络与大模型的“暴力美学”手册】

“Alisa’s book of LLMs”

这是一份极高浓度的AI底层技术备忘录，它把从最基础的矩阵乘法到最前沿的DeepSeek架构全部拆解开了。如果把大模型比作一辆跑车，这里讲的不是怎么开车，而是发动机的活塞怎么运动、燃油怎么喷射。

核心逻辑其实就三层：

1. 算力的极致压榨：从FlashAttention到各种并行策略（DP/TP/PP），本质上都是在解决一个矛盾——显存带宽跟不上计算速度。FlashAttention通过在SRAM里玩“拼图”（Tiling），避免了频繁读写慢速的HBM，让$O(n^2)$的注意力计算在物理层面快了起来。

2. 梯度的“生死时速”：神经网络的灵魂是Backpropagation（反向传播）。文章深挖了激活函数（ReLU、SwiGLU）和归一化（RMSNorm）的数学本质，其实都是为了让梯度在成百上千层的网络中穿行时，既不消失也不爆炸。

3. 强化学习的“降维打击”：从PPO到DeepSeek推崇的GRPO，进化路径非常清晰——去掉沉重的Critic网络，改用群体相对优势（Group Relative Advantage）。这不仅省了显存，更重要的是通过“同行评议”式的对比，让模型在逻辑推理上实现了自我进化。

大模型不是玄学，而是极其精密的数学工程。所有的架构创新（如RoPE旋转位置编码、MLA潜变量注意力），本质上都是在用更优雅的数学公式去替代低效的硬编码。

alisawuffles.notion.site/alisa-s-book-of-llms

DC娱乐网

【Alisa的大语言模型之书：神经网络与大模型的“暴力美学”手册】 “Alis

热门分类