英伟达推出高效推理模型英伟达开源低成本推理模型NVIDIA开源了全新的推理模型系

量子位看科技 2025-05-06 11:20:23

英伟达推出高效推理模型英伟达开源低成本推理模型

NVIDIA开源了全新的推理模型系列——Llama-Nemotron,主打一个“高效低成本推理”。

该系列共包括三种规格(8B、49B、253B),不仅支持主动开启或关闭推理模式,还全部支持商用,覆盖从轻量到旗舰的全场景需求。

三种模型规格如下:

- LN-Nano(8B):轻量小模型,适用于中小型场景,部署成本低,响应速度快;

- LN-Super(49B):性能与资源消耗平衡,适合对推理能力和成本都有要求的中型项目;

- LN-Ultra(253B):旗舰级大模型,可在8张H100上运行,整体推理能力超过DeepSeek-R1,适配复杂任务和企业级需求。

Llama-Nemotron在技术层面也有诸多亮点:

- Puzzle架构重构:该模型采用了全新的“Puzzle”架构,而非传统Transformer,通过去除注意力机制、压缩FFN模块,大幅提升计算效率;

- 超大规模数据训练:训练数据覆盖3300万条高质量合成样本,其中数学和代码类数据占比高达3200万,显著增强模型在逻辑与推理领域的泛化能力;

- 五阶段训练流程:包括架构搜索、蒸馏、持续预训练、有监督微调与强化学习,每一阶段均经过精细设计,推动模型性能逐层跃升;

- 多步推理能力优化:精调过程中以DeepSeek-R1为教师模型,引入RLOO、GRPO等强化学习策略,在保持泛化能力的同时显著提升对话质量;

- 基础设施深度优化:训练与推理过程中结合cudagraph和FP8推理技术,使GPU利用率稳定超过90%,大幅降低单位推理成本。

在多个权威评测基准上,Llama-Nemotron系列在推理与通用理解任务中表现出色,如GPQA、AIME、MATH500等测试成绩,均属领先水平。

目前,英伟达已将该系列模型连同代码和数据集一同开源,感兴趣的小伙伴可以点击——

模型:

论文:

Dataset:

0 阅读:18
量子位看科技

量子位看科技

感谢大家的关注