ky体育-Nvidia是唯一有能力免费提供AI模型的厂商

发布时间：2026-02-05 点击量：

一个从太空飞来的外星人乘坐彗星飞来，会俯瞰地球，发现有一家极具影响力且著名的软件公司，名叫英伟达，恰巧拥有一家极其复杂且极其盈利的硬件业务，运营着一系列专有和开源软件，约有四分之三的员工在这些软件中开发。

因此，随着专有模型制造商——OpenAI、Anthropic和Google是大厂——持续崛起并加剧竞争，我们一点也不意外，MetaPlatforms正在考虑转向名为Avocado的封闭模型——毕竟开源的Llama 4模型已经完蛋——英伟达也在加大对其Nemotron开源模型的投入。

很简单。英伟达可以以成本价获得任何规模的AI集群进行AI训练，鉴于其利润丰厚的AI硬件业务，英伟达是唯一能够免费免费提供模型，并且其拥有支持各种AI和高性能计算模型库的AI企业级软件栈收费极低的公司。（每块GPU每年售价为4500美元，相比“Blackr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ell”系列中价格约为35,000至45,000美元的GPU加速器，价格相对较低。）

从某种意义上说，这回归了IBM早期System/360大型机时期硬件和软件的销售方式，当时该主机在六十年前第二波计算机商业化中拓宽了计算和数据存储的使用范围。那时，你买了一台非常昂贵的大型主机系统，配备了一支穿着蓝色西装的技术人员团队，他们会免费帮你编程。多年来，公司开始自主开发应用软件，或向第三方提供，大蓝通过其全球服务巨头将客户服务转变为盈利中心。

我们认为，这将成为英伟达在全栈集成（包括数据中心）以及从芯片到软件栈最高层垂直集成方面的发展轨迹。Nvidia甚至可能成为独立的人工智能工具。（“效用”这个词比“云”这个词更合适，后者是个模糊且有意为之的词。）

英伟达并非开源AI模型的新手，显然参与运行了几乎所有有史以来的开源AI模型，以及那些已成为家喻户晓名字的封闭模型，如Google Gemini、Anthropic Claude和OpenAI GPT。

在Nemotron 3发布前的简报会上，英伟达企业生成式AI软件副总裁Kari Briski表示，过去两年半内，约有3.5亿个开源AI框架和模型被下载，Hugging Face仓库拥有超过280万个开放模型，涵盖各种变体，用于创建特定用例模型，约60%的公司使用开源AI模型和工具。Briski补充说，2025年Nvidia是Hugging Face上开源贡献最大的企业，释放了650个开放模型和250个开放数据集。

英伟达的起步是自家开发的变压器模型，2019年发布的Megatron-LM。Megatron-LM可以针对80亿参数进行训练，并且跨越512个GPU加速器进行训练（使用八路GPU节点进行模型并行处理，其中64个节点用于数据并行处理）。2021年，通过与Microsoft合作Megatron-Turing NLG将Megatron-Turing NLG扩展到5300亿参数。Neural Modules，简称NeMo工具包与最初的Megatron-LM模型同时发布，Nemotron模型就是基于该工具包及其相关库构建的。

最初的Nemotron型号被称为Nemotron-4，只是为了让我们困惑，它们于2024年6月发布，涵盖了3400亿个参数。在Nemotron 1模型中，英伟达将Llama 3.1基础模型与Nemotron推理技术结合，创造出涵盖8B、49B、70B和235B参数尺度的Llama Nemotron。

今年早些时候发布的Nemotron 2 Nano拥有90亿和120亿参数的变体，英伟达将谷歌2017年6月开创、2018年10月BERT模型实现的变压器方法，与卡内基梅隆大学和普林斯顿大学研究人员开发的Mamba选择性状态空间方法交织。前者擅长从大量数据中提取特征和依赖关系，后者则非常擅长聚焦于较小的数据子集及其依赖关系。

随着本周发布的Nemotron 3，英伟达正在打造一种专家（MoE）架构的混合体，旨在驱动多智能体系统，基于这一混合Mamba-Transformer架构。Briski说，混合架构的成果是推理效率的提升。

Briski解释道：“混合型Mamba-Transformer架构运行速度快了好几倍，内存更少，因为它避免了每个代币的巨大注意力映射和键值缓存。”“所以这种架构确实减少了内存占用，这样你就能拥有更多的专家。我们将在超级和超极版本中引入一种突破性技术，称为潜在专家混合。所有这些与你模型相同的专家都有一个共同的核心，并且只保留一小部分私密。所以这有点像厨师共用一个大厨房，但他们可以使用自己的香料架。因此，通过这种潜在的 MoE，你将获得 Super 和 Ultra 的更高内存效率。”

Nemotron 3家族目前有三名成员，其中两位Briski在其中提到了名字。

Nemotron 3系列很可能会随着时间推移扩展到更大或更小的型号。与其他MoE模型一样，模型训练时会有一个参数的聚合，然后在微调或推理过程中激活一小部分参数。Nemotron 3 Nano拥有300亿参数，其中30亿可随时激活，专为安装在单个Nvidia L40S GPU推理加速器上而设计。超级版本拥有1000亿个参数，最多可同时激活100亿个;超版本则有5000亿个参数，同时激活500亿个。

Briski表示，Nemotron 2 Nano和Nemotron 3型号的微调有所不同。Nemotron 2 Nano 有很多监督式学习——也就是说，人们会修正模型的输出并反馈给模型——还有一点强化学习——模型在使用过程中自我学习，但 Nemotron 3 则有大量的强化学习。Nemotron 3模型高度依赖强化学习，并增加了高达100万个令牌的上下文窗口。

这里有一篇Nvidia的技术博客，解释了Nemotron 3模型的一些细节，但大意是Mamba在捕捉长距离依赖的同时减少了内存占用，变换器层有处理复杂规划和推理的注意力算法，而MoE方法允许模型实际上很大，但只在必要时激活（这是谷歌在其PaLM模型中发明的方法在BERT之后进入实地）。

Super和Ultra版本中引入的潜在MoE功能允许在模型层之间添加中间表示层，在令牌处理过程中共享，从而允许调用4倍的专家数量，同时实现相同的推理性能。更多的专家能带来更好的答案和更高的智慧。Nemotron 3具备多标记预测功能，这是一种针对AI模型的推测执行，Super和Ultra版本已预训练为Nvidia的NVFP4 4位数据精度，以提升推理的有效吞吐量。该训练是在一个25万亿个令牌的预训练数据集上进行的。（目前尚不清楚英伟达是否向所有人开放了数据集——甚至是否能做到。）

那么《Nemotron 3》表现如何？我们来谈谈人工分析，这是目前的人工智能基准。目前只有 Nemotron 3 Nano 30B/3B 有售，以下是它在推理工作负载中每秒输出令牌数的评分：

相比Nemotron 2型号，这带来了巨大的性能提升。不激活整个模型显然有助于MoE，这也是设计规格。

以下是 Nemotron 3 Nano 30B/3B 在绘制模型准确率（纵轴智能）与令牌吞吐量（X轴）时的对比：

你想在这张图表上往右上方。

最后，这是Nemotron 3 Nano与开放指数（即你的模型开放度）的对比，显示在Y轴对比智力（答案正确度）：

看看Nemotron 3型号是否能作为AI企业级技术栈的一部分或单独获得英伟达的技术支持订阅，将会很有趣。如果英伟达提供支持，只需收取高价，只需覆盖模型开发成本，以抵消日益封闭的AI模型开发者。

-ky体育