一份机器学习系统笔记地址:github.com/JINO-ROHIT/ml-systems-notes作者:“过去几个月,我深入研究了机器学习系统,主要围绕大语言模型的训练和推理。这份个人笔记集涵盖分布式计算、并行化、量化以及PyTorch内部机制,大部分内容来自我的实验。
1. 分布式技术 - 涵盖分布式训练基础知识:NCCL集合通信(gather、all-gather、reduce、all-reduce、scatter、reduce-scatter)、混合专家模型、并行化策略(DP、DDP、ZeRO、张量/流水线并行)以及torch.distributed基础。
2. 量化 - 从基本原理出发的模型量化:对称/非对称量化、LLM.int8()、AWQ、SmoothQuant、GPTQ/OBS/OBQ以及QuIP。
3. PyTorch内部机制
4. Jax扩展书籍 - 来自Jax扩展书籍的一些已解答练习题。
我会持续添加笔记并完善内容,使其随着时间的推移更加清晰易读。”AI创造营
