21世纪经济报道记者倪雨晴 深圳报道
华为昇腾是怎么做到和英伟达“掰手腕”的?
技术拆解
要理解这个问题,我们得先来认识昇腾的最强战力,“CloudMatrix 384 超节点”这个大家伙。这就是它的外观(画面:384的结构图),它其实就是一个巨大的芯片集合,这最核心的384张昇腾910芯片,外加192颗鲲鹏CPU,通通塞进16个机柜,然后用光缆、光模块联接起来,构成一个“超节点”。
你可以把它想象成一支超级“AI方阵”:虽然单个士兵不如对手,但整体配合、纪律、调度都非常出色。最终打起仗来,不一定会输。
听起来是不是有点像“芯片大拼盘”?但是,要把384块芯片联接在一起,像一台机器一样高效工作、协同配合,这可不简单。
你可能不知道,英伟达目前GB200的机柜,只塞了72块GPU,下一代是144块GPU,
它曾经试图串联256块GPU,但因为联接太复杂、稳定性太差,放弃了。
所以,把384块芯片联成“一个大脑”,是个超级复杂的系统工程。
华为是怎么做到的?一句话——
不是靠单点爆发,而是靠“系统性工程的突破”。
这个“大力出奇迹”的背后,是通信、光学、热学、基础软件等多个领域的老底子,一起发力的结果。
核心突破点包括:
听上去有点技术?咱们展开说说一项很关键的互联技术。
在计算集群里,无论是 CPU、GPU 还是 NPU,最终都需要高效的联接起来,才能交换传输数据。
英伟达有独家的NVLink互联技术,芯片之间是用铜缆连接。
华为呢?制裁之下,没得选,就自己重新定义了全对等的互联总线,统一了通信协议。
什么叫“全对等”?就是说,不是以 CPU 为主,也不是 GPU 说了算,而是所有芯片地位平等,传数据,不需要中转、不需要翻译,大大提高了传输效率。
同时华为选择了用光缆连接芯片,光缆就是靠“光信号”来传输数据。如果说铜缆是“城内公交”,那光缆就是“城际高铁”:速度快、带宽大、延迟低,传得远。
但问题是——光缆贵,光模块贵,维护也麻烦。
所以,英伟达大量使用了铜缆,但是,华为可不怕麻烦,毕竟人家通信起家,光通信就是华为的绝活。于是,华为直接在芯片内建立起“超级高速路”,能联接更多的芯片,组成了384超节点。
当然,这还只是互联部分。背后还有数学算法的调度优化、软硬件的深度协同、工程上的高效散热等等,昇腾也是在一次次的创新中突围。
崛起和差距
用任正非的话来说:“我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”
华为聪明地避开了单卡硬碰硬的路径:
单卡差?那我就搞超节点;
HBM内存不够快?那我就堆更多卡,做更高带宽;
没有CUDA?那我就研发CANN;
系统容易宕机?那我做分钟级恢复;
效率太低?那我算力利用率拉到50%;
就像一位华为专家说的:“训练大模型需要大系统,而不是拼单卡。”换句话说,昇腾不是靠“单打独斗”赢,而是靠“团队协作”赢。
那差距呢?当然有。
第一,芯片工艺上,英伟达已经上3纳米。
第二,软件生态,虽然CANN进步了很多,但跟CUDA比还差个历史沉淀。
第三,客户基础和全球开发者社群,英伟达的开发者生态非常庞大。
但昇腾已经打开了一道口子——尤其在中国市场,现在英伟达的H20被限制,很多企业已经在主动适配昇腾等国产芯片。
从国内的AI芯片看,可以大致分为三个派系。一是科技巨头,包括华为昇腾、百度昆仑芯、阿里含光等;二是纯芯片厂商,比如已经上市的寒武纪,比如GPU四小龙燧原科技、沐曦、壁仞科技、摩尔线程;三是面向细分领域,比如车载AI芯片的地平线、黑芝麻等创新企业。
也就是说,我们虽然还在追赶,但不再“被动挨打”,美国再怎么禁芯片、锁制造、压供应,国内半导体产业链反而在压力下迸发。
华为这条昇腾路线,其实是中国市场特色的“技术曲线”:我们目前未必能做出最强单芯片,但我们可以做出系统最优解。
用面积换性能、用堆叠换容量、用协同打组合拳——不是所有问题都要硬刚,有时候,弯道超车更实用。
在AI这场漫长的马拉松里,国产算力真正的逆袭,或许就从昇腾这一步开始。