英伟达推出高效推理模型英伟达开源低成本推理模型
NVIDIA开源了全新的推理模型系列——Llama-Nemotron,主打一个“高效低成本推理”。
该系列共包括三种规格(8B、49B、253B),不仅支持主动开启或关闭推理模式,还全部支持商用,覆盖从轻量到旗舰的全场景需求。
三种模型规格如下:
- LN-Nano(8B):轻量小模型,适用于中小型场景,部署成本低,响应速度快;
- LN-Super(49B):性能与资源消耗平衡,适合对推理能力和成本都有要求的中型项目;
- LN-Ultra(253B):旗舰级大模型,可在8张H100上运行,整体推理能力超过DeepSeek-R1,适配复杂任务和企业级需求。
Llama-Nemotron在技术层面也有诸多亮点:
- Puzzle架构重构:该模型采用了全新的“Puzzle”架构,而非传统Transformer,通过去除注意力机制、压缩FFN模块,大幅提升计算效率;
- 超大规模数据训练:训练数据覆盖3300万条高质量合成样本,其中数学和代码类数据占比高达3200万,显著增强模型在逻辑与推理领域的泛化能力;
- 五阶段训练流程:包括架构搜索、蒸馏、持续预训练、有监督微调与强化学习,每一阶段均经过精细设计,推动模型性能逐层跃升;
- 多步推理能力优化:精调过程中以DeepSeek-R1为教师模型,引入RLOO、GRPO等强化学习策略,在保持泛化能力的同时显著提升对话质量;
- 基础设施深度优化:训练与推理过程中结合cudagraph和FP8推理技术,使GPU利用率稳定超过90%,大幅降低单位推理成本。
在多个权威评测基准上,Llama-Nemotron系列在推理与通用理解任务中表现出色,如GPQA、AIME、MATH500等测试成绩,均属领先水平。
目前,英伟达已将该系列模型连同代码和数据集一同开源,感兴趣的小伙伴可以点击——
模型:
论文:
Dataset: