英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

869次阅读
没有评论

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

NSA算法平衡效率与准确度

henry 发自 凹非寺
量子位 | 公众号 QbitAI

众所周知,老黄不仅卖铲子(GPU),还自己下场开矿(造模型)。

英伟达最新推出的Llama Nemotron Super v1.5开源模型就专为复杂推理和agnet任务量身打造。

模型在科学、数学、编程及agent任务中实现SOTA表现的同时,还将吞吐量提升至前代的3倍,且可在单卡高效运行,实现更准、更快、更轻的“既要又要还要”。

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

这是怎么做到的?

模型介绍

Llama Nemotron Super v1.5是Llama-3.3-Nemotron-Super-49B-V1.5的简称。它是Llama-3.3-Nemotron-Super-49B-V1的升级版本(该模型是Meta的Llama-3.3-70B-Instruct的衍生模型),专为复杂推理和智能体任务设计

模型架构

Llama Nemotron Super v1.5采用神经架构搜索(Neural Architecture Search,NAS),使该模型在准确率和效率之间实现了良好的平衡,将吞吐量的提升有效转化为更低的运行成本。

(注:NAS的目标是通过搜索算法从大量的可能架构中找到最优的神经网络结构,利用自动化方法替代人工设计神经网络架构,从而提高模型的性能和效率。)

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

在Llama Nemotron Super v1.5中,NAS算法生成了非标准、非重复的网络模块(blocks)。相较于传统的Transformer,其包含以下两类变化:

  • 跳过注意力机制(Skip attention):在某些模块中,直接跳过了注意力层,或者只用一个线性层来代替。
  • 可变前馈网络(Variable FFN):在前馈网络(Feedforward Network)中,不同模块采用了不同的扩展/压缩比。

由此,模型通过跳过attention或改变FFN宽度以减少FLOPs,从而在资源受限时更高效地运行模型。

之后,研究团队还对原始的Llama模型(Llama 3.3 70B Instruct)进行了逐模块的蒸馏(block-wise distillation),通过对每个模块构造多个变体,并在所有模块结构中搜索组合,从而构建一个模型。

使它既能满足在单个H100 80GB显卡上的吞吐量和内存要求,又尽量减少性能损失。

训练与数据集

模型首先在FineWeb、Buzz-V1.2 和 Dolma三个数据集共400亿个token的训练数据上进行了知识蒸馏(knowledge distillation,KD),重点关注英语单轮和多轮聊天。

在后训练阶段,模型通过结合监督微调(SFT)和强化学习(RL)的方法,以进一步提升模型在代码、数学、推理和指令遵循等关键任务上的表现。

这些数据既包括来自公开语料库的题目,也包含人工合成的问答样本,其中部分题目配有开启和关闭推理的答案,旨在增强模型对推理模式的辨别能力。

英伟达表示数据集将在未来几周内发布。

总的来说,Llama Nemotron Super V1.5是一个通过NAS自动优化架构、精简计算图的 Llama 3.3 70B Instruct变体。它针对单卡运行场景做了结构简化、知识蒸馏训练与后训练,兼顾高准确性、高吞吐量与低资源占用,特别适合英语对话类任务及编程任务的部署。

此外,在部署方面,英伟达延续了其一贯的生态优势:

我们的AI模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过充分利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),相比仅依赖 CPU 的方案,模型在训练和推理阶段实现了显著的速度提升。

该模型现已开源开发者可以在build.nvidia.com体验Llama Nemotron Super v1.5或直接从Hugging Face下载模型。

One more thing

作为英伟达最新发布的开源大语言模型,Llama Nemotron Super v1.5隶属于英伟达Nemotron生态,该生态集成了大语言模型、训练与推理框架、优化工具和企业级部署方案,旨在实现高性能、可控性强、易于扩展的生成式 AI 应用开发。

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

为满足不同场景需求与用户定位,英伟达在此生态的基础上推出了三个不同定位的大语言模型系列——Nano、Super和Ultra。

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

其中,Nano系列针对成本效益和边缘部署,适合部署在边缘设备(如移动端、机器人、IoT设备等)或成本敏感型场景(比如本地运行、离线场景、商业小模型推理)。

Super系列则针对单个GPU上平衡的精度和计算效率,它可以在一张高性能 GPU(如 H100) 上运行,不需要多卡或大型集群。它的精度比Nano高,但比Ultra小巧,适合企业开发者或中型部署。我们上面提到的Llama Nemotron Super v1.5就属于这一系列。

Ultra则致力于数据中心的最大精度,专为在数据中心、超算集群、多张 GPU上运行而设计,面向复杂推理、大规模生成、高保真对话等对精度要求极高的任务。

目前,Nemotron已获得SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte 等企业支持或集成使用,用于构建面向企业级流程自动化和复杂问题解决的AI智能体平台。

此外,在Amazon Bedrock Marketplace中也能通过NVIDIA NIM微服务调用Nemotron模型,简化部署流程,支持云端、混合架构等多种运营方案。

参考链接
[1]https://www.marktechpost.com/2025/07/27/nvidia-ai-dev-team-releases-llama-nemotron-super-v1-5-setting-new-standards-in-reasoning-and-agentic-ai/
[2]https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/
[3]https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5
[4]https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 7 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...