DC娱乐网

huggingface出了一个官方的复刻DeepSeek-V4的教学项目:nan

huggingface出了一个官方的复刻DeepSeek-V4的教学项目:nanowhale地址:github.com/huggingface/nanowhale

nanowhale 是 Hugging Face 做的一个小型 DeepSeek-V4 架构复现实验项目,用约 1.1 亿参数实现了 MLA 注意力、MoE、Hyper-Connections、MTP 等关键组件,并提供从零预训练、SFT 微调、评测、聊天和上传 Hub 的完整流程。很适合用来学习和实验 DeepSeek-V4 风格模型架构。AI创造营How I AI