为什么NVIDIA给下一代芯片平台取名叫Vera Rubin
Vera Rubin是一位美国女天文学家,她在上个世纪发现了星系旋转速度的异常,简单说就是星系转得太快了,按照可见物质的质量根本撑不住这种转速,于是暗物质这个概念就诞生了。她一辈子没拿到诺贝尔奖,但整个宇宙学都在她的观测数据上重新写了一遍。

现在NVIDIA把她的名字刻在了下一代AI基础设施上,7颗芯片、5种机架、1台巨型超算,全部叫Vera Rubin;我觉得这个名字取得真好。暗物质看不见摸不着但决定了宇宙的结构,AI算力看不见摸不着但正在决定文明的走向。有点浪漫。
这7颗芯片到底是什么
GTC 2026上老黄一口气端出来的阵仗确实吓人。Vera Rubin平台包含以下这些:
Vera CPU,NVIDIA第一颗完全自研的通用CPU,内核架构叫Olympus,88个核心,专门强化单线程性能。这是NVIDIA历史上第一次单独卖CPU,老黄直接说这将是数十亿美元的业务。过去Grace CPU是跟GPU打包卖的,现在Vera要独立出道了。

Rubin GPU,单颗就能提供50 petaFLOPS的NVFP4算力,搭配HBM4显存。记住这个数字,50 petaFLOPS,单颗。NVLink 6 Switch,第六代NVLink,每颗GPU 3.6TB每秒的互联带宽,比Blackwell翻了一倍。72颗Rubin GPU通过NVLink 6连成一个整体,总互联带宽260TB每秒。

ConnectX-9 SuperNIC,网络接口卡,负责机架内外的高速数据搬运。BlueField-4 DPU,数据处理单元,这次还搞了个叫DOCA Memos的框架,专门用来处理LLM推理时产生的海量KV Cache数据,推理吞吐量提升最高5倍。Spectrum-6 Ethernet Switch,以太网交换机,这次用上了共封装光学元件,把光引擎直接焊在交换芯片上,不需要传统可插拔光模块了,光学能效提升5倍,可靠性提升10倍,然后是第七颗,Groq 3 LPU。

Groq怎么混进来了
没错,你没看错,NVIDIA把Groq的LPU集成进了自己的平台。
Groq是一家做推理加速芯片的公司,他们的LPU以超低延迟著称。之前大家觉得Groq是NVIDIA的竞争对手,结果老黄反手一个拥抱,直接把Groq 3 LPU做成了Vera Rubin平台的一部分。Groq 3 LPX机架,256颗LPU,128GB片上SRAM,640TB每秒的集群互联带宽。配合Vera Rubin NVL72一起部署,每兆瓦推理吞吐量提升35倍。万亿参数模型的推理收入潜力提升10倍。

这个操作其实很聪明。NVIDIA的GPU擅长训练和大规模并行计算,但在推理特别是低延迟推理这个场景上,Groq的架构确实有独到之处。与其硬刚不如合作,反正最终客户买的还是NVIDIA的整套方案,Groq只是其中一颗芯片,LPX机架预计今年下半年出货。

NVL72,一个机架350万美金
Vera Rubin NVL72机架,72颗Rubin GPU加36颗Vera CPU,全部液冷。单机架预计售价350万到400万美金,比Blackwell NVL72的约335万美金贵了大约25%,贵是贵了,但值不值呢。

NVL72用来训练大型MoE模型的时候,需要的GPU数量只有Blackwell平台的四分之一。推理的话,每瓦吞吐量提升10倍,每个token的成本最低可以降到十分之一;你没看错,十分之一。也就是说以前你花100万美金跑推理,现在同样的活儿10万美金就能搞定。这个数字是基于Kimi-K2-Thinking模型在32K输入8K输出场景下的实测对比。

这里有个细节很有意思。整个Vera Rubin平台采用45摄氏度水温液冷,不需要额外的制冷机。什么意思呢,就是你拿温水直接灌进去就能散热了。数据中心冷却成本直接砍一大截。

而且这次的机架设计去掉了复杂的缆线,用模块化托盘设计,装配速度比Blackwell快18倍。18倍这个数字有点夸张了,不知道Blackwell那边的工程师看到作何感想。

更狠的是NVIDIA自己算了一笔账。Vera Rubin NVL144 CPX配置下,每投资1亿美金,预计能产生50亿美金的token收入。投资回报率50倍,这个数字在半导体行业几乎没见过。
Vera CPU机架和那个256颗CPU的大家伙
除了GPU机架,还有一个纯CPU机架。Vera CPU机架,液冷,256颗Vera CPU。为什么要单独搞一个CPU机架,因为代理AI和强化学习需要大量CPU环境来测试和验证模型输出。简单说就是GPU负责想,CPU负责验。老黄强调Vera CPU的单线程性能是其他CPU的两倍,能效也高出50%。这个其他CPU没点名,但懂的都懂。
BlueField-4 STX,给AI造了个专门的硬盘架
BlueField-4 STX存储机架,这是NVIDIA专门给AI设计的存储架构。传统存储是给人用的,文件、数据库、对象存储。但AI推理时会产生巨量的KV Cache数据,这些数据的读写模式跟传统存储完全不同。STX就是为这个场景设计的,把GPU显存无缝延伸到整个POD,推论吞吐量提升5倍。

Mistral AI的CTO直接说这个东西对他们的代理AI扩展至关重要。原文就不引用了,大致意思就是终于有人认真对待AI存储这个问题了。
DSX,用数字孪生造AI工厂
Vera Rubin DSX AI工厂参考设计,这是NVIDIA给出的AI数据中心建设指南。
配合Omniverse DSX蓝图,你可以在虚拟世界里先把整个AI工厂建一遍,模拟电力拓扑、散热行为、网络架构,甚至运营策略,然后确认没问题了再开始施工。
参与这个项目的公司名单很长,施耐德电气、西门子、伊顿、特灵、维谛,基本上你能想到的数据中心设备厂商都在里面。还有能源公司,GE Vernova、日立、西门子能源,专门解决AI工厂的电力接入问题。

老黄说智能token是新货币,AI工厂就是生产这种货币的基础设施。DSX蓝图就是帮人更快地开工厂、更快地印钱。
太空计算,GPU真的上天了
最后说个最离谱的。NVIDIA Space-1 Vera Rubin Module,一颗专门为空间环境设计的Rubin GPU模块。跟H100相比,太空版Rubin的AI算力提升25倍。你可能会问,太空里为什么要跑AI。

因为卫星越来越多,产生的数据量越来越大,全部传回地面处理根本不现实。延迟太高,带宽不够,还受天气影响。不如直接在轨道上跑推理,数据在哪产生就在哪处理。
已经有公司在用这个方案了。Aetherflux在做太空能源加轨道计算,Kepler Communications用Jetson Orin在卫星上跑智能路由,Planet每天拍整个地球的照片现在打算在轨道上直接用AI分析,Sophia Space在搞模块化的被动散热太空计算平台,Starcloud更狠,直接要做太空版AWS,轨道数据中心。
老黄的原话我就不引用了,大意是太空计算是最后的前沿,智能必须跟数据在一起。说实话这个方向让我既兴奋又有点害怕。兴奋是因为技术上确实酷,害怕是因为万一哪天太空里跑的AI出了bug,我们连上门拔电源的机会都没有。
Rubin Ultra和下一代的规划
还没完。Vera Rubin之后还有Rubin Ultra,采用Kyber机架设计,GPU是垂直插入的,单个NVLink域可以连接144颗GPU。预计2027年推出从72到144,翻倍的速度比摩尔定律还离谱。
以前我们说NVIDIA是卖显卡的,后来变成卖GPU的,再后来变成卖AI芯片的,现在它想卖整个AI工厂。而且是每投资1亿美金就能产出50亿的那种工厂;推理加速这个赛道本来有好几个玩家在跟NVIDIA竞争,结果老黄直接说你们别打了,来我这里干活吧。
下一篇:没有了