华为百度接连“秀肌肉”,大厂自研AI芯片为何不再闷声?
创始人
2025-11-24 18:36:36
0

如果你想通过官网查看国产AI芯片公司的最新产品信息,恐怕要失望而归了:最新的芯片型号时常并不会出现在产品菜单上,更不用说芯片的具体参数信息。

这是国产AI芯片公司过去几年力求低调的缩影。“这几年做芯片比较敏感,我们出来讲得也比较少。”一位与大厂关联密切的芯片公司负责人坦言。

但近期,随着华为、百度等大厂接连公开宣布AI芯片的迭代路线图,阿里的平头哥芯片亮相央视《新闻联播》,闷声做事的状态突然间被打破。未来三年,华为将发布四款昇腾AI芯片;按照百度的规划,接下来两年有两款昆仑芯AI芯片即将上市。与百度仅披露芯片型号与用途相比,华为给出的信息更为翔实,将互联带宽、算力、内存等外界关注的芯片参数悉数公开。

“我们从2020年开始,一直到去年啥都不敢讲,但也不能老憋着,所以今年我们就‘秀了点肌肉’。”华为轮值董事长徐直军在9月中旬接受媒体群访时感慨。

“里程碑式的转折。”国际投资研究机构盛博(Bernstein)中国半导体高级分析师林清源向南都记者表示,从市场端看,国产芯片公司需要向客户呈现清晰的产品路线图,以抢占英伟达留下的市场蛋糕。此外,外界原本担心英伟达H20供应中断,资本市场会对国内互联网大厂产生负面反馈。但国产AI算力方案的推出,反而让投资者看到,大厂未来可以依赖国产算力的供给获得发展,也促使这些有自研芯片的公司更高调地开始对外沟通其芯片进展。

在林清源看来,国产半导体供应链的突围,推动芯片顺利流片,也让国产AI芯片未来几年的产品迭代具备较高可预见性。据其观察,对于国内的7纳米先进逻辑芯片产线,在被美国完全禁止进口、占比约三成的半导体设备上,国产方案如今已基本填补了美国制裁带来的空白。过去国产设备仍停留在测试阶段,但自今年以来,已陆续导入量产线。“先进制程的整个供应链已经度过了最艰难的阶段。”林清源说,这提升了先进制程芯片制造后续产能扩产的确定性。

不可否认,国产AI芯片的性能与海外巨头依然差距明显。徐直军在9月18日的华为全联接大会上重申了过去的论断:中国半导体制造工艺将在相当长时间处于落后状态,可持续的算力只能基于实际可获得的芯片制造工艺。因此,“超节点+集群”成为华为、百度、阿里等大厂应对AI算力需求的解决方案。这一方案是华为CEO任正非口中的“用数学补物理”策略,不过非常考验芯片厂商在通信、散热等方面的系统性能力。

“全球AI芯片是双雄争霸下的非对称竞争。”国产EDA(电子设计自动化)企业上海合见工业软件集团有限公司总经理徐昀提到,所谓“非对称”,指的是中国智算芯片在工艺制程、单卡算力、单卡内存容量和带宽等维度,均落后于以英伟达为代表的北美智算芯片,但可以借助超节点的组网,完成对后者的性能超越。“中国芯更需要互联能力。”

华为打响第一枪,百度最新接棒

在国产AI芯片阵营中,华为昇腾的头号地位毋庸置疑。以至于英伟达创始人黄仁勋也不得不将华为视作“强大的竞争对手”,直言“低估华为这样的竞争对手是愚蠢的”。

华为在2018年发布首款昇腾AI芯片310,2019年迭代至昇腾910,其性能超过英伟达同时代的V100 GPU。但随着2020年美国制裁、台积电断供,华为自研AI芯片步入艰难时刻。从2020年开始的约五年时间内,华为仅在昇腾910系列内升级,先后推出910B和910C。这一状况正在转变。

今年9月中旬,华为开始对外表露自己的AI算力雄心。徐直军在2025全联接大会上宣布,2026至2028年三年间,华为将相继推出昇腾950、960和970三大系列。

华为昇腾芯片路线图。

其中,950系列包括950PR、950DT两种型号,分别于2026年一季度和四季度推出,均支持FP8等低精度数据格式。950PR主要面向推理预填充(Prefill)阶段和推荐业务场景,而950DT更注重推理解码(Decode)阶段和训练场景。这也是业内正在兴起的P/D分离路线——用不同芯片来完成Prefill和Decode的任务。

所谓预填充与解码,是模型推理的两个阶段:预填充属于推理开始阶段,模型需要一次性读取并理解输入的所有上下文,对计算能力要求高,而对高带宽内存(HBM)的需求较低;解码阶段则根据已有信息一步步生成输出tokens,计算负载轻,但依赖于快速内存传输和高速互连来维持输出性能。

基于预填充与解码阶段的不同特性,昇腾950PR采用了华为自研的低成本HBM——HiBL 1.0,相比高性能、高价格的HBM,能够大大降低推理预填充阶段的成本。为应对推理解码阶段和训练对互联带宽和内存访问带宽的高要求,950DT则采用HiZQ 2.0内存,内存容量达到144GB,内存访问带宽达到4TB/s。相比之下,950PR的内存容量为128GB,内存访问带宽达到1.6TB/s。两款芯片均拥有2TB/s的互联带宽。

无独有偶,华为推出P/D分离两款芯片前,英伟达在9月9日也发布一款基于最新Rubin架构打造的GPU芯片Rubin CPX,充当面向计算密集型预填充阶段优化的专用芯片,预计于2026年底上市。这是海外首个在芯片层面实现P/D分离的实践。

在8192张950DT芯片的基础上,华为预计在2026年四季度推出Atlas 950超节点产品。紧接着在2027年四季度迭代至Atlas 960超节点,最大可支持15488张昇腾960芯片。基于这两款超节点,华为同时发布Atlas 950 SuperCluster和Atlas 960 SuperCluster两款超节点集群,算力规模分别超过50万卡和达到百万卡。

从芯片、超节点再到集群,华为对技术参数披露的“颗粒度”之细,可谓近年来罕见。林清源认为,这说明华为“是真的有料”。

华为甚至不惮于直接叫板英伟达。英伟达预计2026年下半年发布NVL144系统,徐直军拿Atlas 950超节点与之对比称:卡的规模是英伟达NVL144的56.8倍,总算力是其6.7倍,内存容量是其15倍,达到1152 TB,互联带宽是其62倍。

一位业内人士向记者分析,按理说,华为本来是最不应该对外来讲芯片技术细节的。如今华为站出来“打响第一枪”,这代表了一个关键的转折。

11月13日,百度接棒公布旗下昆仑芯的业务路线图:2026年初上市M100芯片,针对大规模推理场景优化设计,主打性价比;2027年初上市M300芯片,面向超大规模多模态模型的训练和推理需求。另外,2026年上半年和下半年,百度预计将推出“天池256超节点”和“天池512超节点”,搭载2024年上市的昆仑芯P800芯片,最高分别支持256张卡和512张卡互联。从2027年下半年开始,昆仑芯将陆续推出千卡和四千卡的超节点。按照规划,昆仑芯预计于2029年上市新一代的N系列芯片,2030年点亮百万卡昆仑芯单集群。

相较于华为,百度对于芯片和超节点的参数介绍有限。据南都记者了解,百度的超节点产品在GPU、CPU、内存等核心部件上实现了国产化。一台基于昆仑芯P800的64卡超节点,单卡功耗约400瓦,在FP16精度(16位浮点数)的总算力规模超20 PFlops。以此换算成单卡算力,大致为英伟达A100 SXM版本算力的一半。

昆仑芯前身为百度智能芯片及架构部,于2021年4月完成独立融资,并由百度芯片首席架构师欧阳剑出任昆仑芯公司的CEO。天眼查显示,截至目前,昆仑芯完成了6笔融资,最新一起发生在今年7月。百度为昆仑芯的控股股东。

另有不具名业内人士向记者分析,百度此时选择披露AI芯片路线图,除了有华为在前面打样,或许也与昆仑芯寻求IPO的压力有关。

根据公开信息,市场上已多次传出昆仑芯筹备IPO的传闻。南都记者于11月中旬看到,昆仑芯在Boss直聘、脉脉等招聘平台释出投融资律师岗位,其工作职责便包括:IPO全流程管理、协助招股书与监管文件、上市后公司治理与监管对接等。然而,在记者向公司方面求证IPO事宜后,该招聘岗位随即被关闭。

超节点补足单颗芯片性能短板

与非网10月下旬发布的一份问卷调查报告显示,43%的受访者认为,云端国产AI芯片的核心竞争力在于万卡以上互联的集群扩展性。

由于国产芯片先进制程被卡在7纳米节点,华为与百度的AI算力路线图,纷纷把超节点和集群作为突围关键。9月24日的2025云栖大会上,阿里也发布磐久AI Infra 2.0超节点,兼容多种AI芯片,单柜拥有128颗AI芯片。

徐直军接受媒体群访时表示,“超节点+集群”是华为在极限制裁下被逼出来的范式。只有依靠超节点和集群,才能规避中国的芯片制造工艺受限,为中国提供源源不断的AI算力支持和供给。

作为2025年被华为带火的概念,超节点为何如此重要?传统上,计算集群依靠横向扩展(scale-out)架构,通过通用以太网连接大量标准化服务器。但这种简单的“堆卡”做法,无法满足大模型训练对跨服务器网络带宽与时延的严苛要求,制约了训练效率。

林清源介绍,scale-out架构下,集群的互联效率很低,模型训练时需要先将任务拆成许多份在不同的节点之间运行,显著增加了并行计算的协调难度,这会“让大模型训练非常痛苦”。

于是,纵向扩展(scale-up)的超节点方案走向台前,以突破通信性能瓶颈。根据华为《超节点发展报告》(下称《报告》)介绍,不同厂商的超节点实现路径各具特点:英伟达通过NVLink的高速互连技术,将整机柜的GPU打造成一台逻辑上的“巨型单机”;而华为等国内厂商的做法是,通过“面向超节点的互联协议”,将大带宽、低时延的互联范围从单机柜内部延伸至整个集群。

例如,华为Atlas 950超节点满配包括由128个计算柜、32个互联柜,共计160个机柜组成,占地面积1000平方米左右。在这样一个超节点系统中,华为自研的“灵衢”(UnifiedBus)互联协议扮演着通信“高速路”的角色。在物理上,超节点虽然由多台机器组成,但逻辑上能够像一台计算机一样工作、学习、思考和推理。

华为当前已面市的超节点方案为CloudMatrix 384,搭载了384颗昇腾910C芯片。芯片研究机构SemiAnalysis在一份报告中指出,CloudMatrix 384直接与基于英伟达GB200芯片的NVL72系统展开竞争,在某些指标上甚至超越了英伟达的机架级解决方案。CloudMatrix 384的昇腾芯片数量是NVL72系统的五倍,足以弥补每颗芯片性能仅为英伟达GB200三分之一的不足。SemiAnalysis指出,CloudMatrix 384超节点的缺点是功耗更高,为NVL72系统的4.1倍,但电力问题并非中国面临的限制因素。

华为副总裁、公共事业军团CEO李俊风在10月下旬一场峰会上说,CloudMatrix 384超节点在两三年前就已经开始规划,今年顺利推出,表现非常不错。华为接下来将推出更大规模的超节点,以解决美国对华单芯片制裁的问题。

“现在全世界能够提供人工智能算力的只有中国和美国,而且我们现在不需要美国。最近英伟达CEO说(在中国的AI芯片)市场份额从95%降到0,(这是)因为包括华为和其他AI芯片公司可以自己提供。”李俊风表示。

有了超节点,并不意味着放弃此前的横向扩展(scale-out)架构。前述华为的《报告》还提到,面临万亿参数规模的超大型模型训练需求,超节点可通过叠加scale-out组网,将多个超节点单元组合成一个更大规模的集群。其运作方式是,将模型训练任务负载拆解至多个超节点并行执行,从而缩短训练周期,提升模型训练效率。

林清源认为,在先进制程被卡在7纳米节点的背景下,不同国产AI芯片的单颗性能差距将日渐缩小,后续考验的是芯片厂商的集群组网能力。华为的组网能力从其已发布的技术文档来看有许多创新点,后续则等待芯片制造产能的释放,向市场推出真正的产品完成商业化验证。

昆仑芯超节点产品。图:杨柳

大规模AI算力集群建设依靠芯片厂商的系统化能力积累,除了高门槛的通信优化,还包括散热、故障修复等方面的实力。

“为什么看起来不错的一款芯片,在训练上用就是一件很困难的事?”百度智能云AI计算首席科学家王雁鹏在11月中旬一场昆仑芯的论坛上指出,硬件的稳定性是其中一大挑战。推理场景下,一台机器就能运行一个推理实例。即使发生故障,影响范围也仅限于当时所服务的少量用户。训练任务则截然不同。当前主流大模型的训练规模往往达到万卡级别,训练过程高度同步,意味着任何一块芯片出现故障,整个集群都必须暂停并重新启动。

王雁鹏表示,硬件稳定性问题不可避免,因为晶体管的集成度高、功耗高,随之带来故障率的攀升。即便是英伟达的GPU,也存在故障的可能。由于国产芯片的质量控制能力尚无法与英伟达匹敌,故障率在国产AI芯片上被放大。因此,在集群上线运行之前,需要进行完善的故障检测。

集群还有可能在运行过程中出现“静默故障”,也就是没有任何一块芯片报错,但是训练结果出错。如果无法精准定位到具体出故障的卡上,“整个集群可能就完蛋了。”王雁鹏说,集群必须做到在出现故障时能够快速自愈和恢复,如此才能获得一个相对稳定的算力平台。

在训练与推理市场“抢蛋糕”

尽管市面上出现形形色色的训推一体AI芯片,但真正能用于大模型训练的非常稀少。林清源说,当厂商打出“训推一体”的标签,很多时候可以直接将其等同为推理芯片。所谓的训练,通常只能用于小模型训练或者模型的后训练(post-training),而非大模型的预训练(pre-training)环节——预训练奠定模型的基础,后训练则通过微调使模型适应特定任务。

此前有云厂商人士告诉记者,国产AI芯片用于大模型训练任务难度很高,华为昇腾几乎是唯一一可用于大模型训练的芯片。但Bernstein今年7月的一份报告提到,即便是华为昇腾当前的主打型号910C,大部分应用仍然是推理,只有科大讯飞会在910C上运行一些训练任务。此外,910C也可以用于一些模型蒸馏和微调任务。

基于国产算力开展大模型训练,需付出额外的算力成本与时间代价。今年3月,科大讯飞董事长刘庆峰接受南都等媒体采访时透露,2024年10月,科大讯飞便完成深度推理模型的技术路线验证。然而,为了在国产算力平台上进行训练,公司不得不花费额外两个月时间来进行适配工作。所以,使用全国产算力训练模型的代价,不仅体现在国产AI芯片的使用成本更高,也体现在训练消耗的时间更长,拖慢了模型发布的进度。

百度是继华为之后,近期公开宣称已将自研芯片集群用于大模型训练的厂商。王雁鹏在前述昆仑芯论坛上提到,昆仑芯现已支持了54个模型的训练和60个模型的推理。他重点提及,包括视频生成模型“百度蒸汽机”在内的三款多模态模型,是在5000卡或6000卡的昆仑芯集群上完成训练。下一步,百度会在昆仑芯P800芯片集群上尝试最先进模型的训练。

即便有了可供模型训练的国产芯片,AI模型公司是否有意愿采用依然有待观察。对此,徐直军接受媒体群访时类比称:“就像谈恋爱,不谈的话,你怎么知道对方的优缺点。合适不合适,你要谈一下,要用一下,在用的过程中有问题解决问题。”

面对大模型训练这块难啃的市场,许多国产AI芯片厂商涌入模型推理领域。一方面,推理芯片的设计难度和数据处理规模相对较低;另一方面,AI应用的日益普及,带动推理算力需求高涨。根据市场调研机构IDC于10月21日发布的数据,2025年上半年的中国GenAI IaaS服务市场中,推理场景占比上升至42%,训练场景占比则降低至58%。预计未来,随着企业内部多模态生成与实时推理场景的持续丰富,推理基础设施将随着AI Agent市场的发展成为AI IaaS的核心分支。

根据百度智能云混合云部总经理杜海的判断,国产芯片已经可以满足当前最先进模型的推理使用。比较先进一点的国产推理芯片,基本上能配置96G的显存。其中,至少能有86G的容量用来存放模型的权重。那么,一台8张卡的单机,就能提供大概688G的显存容量,而 DeepSeek R1-671B模型的权重大概在600G左右。因此,一台单机就可以直接运行这样一款先进模型。如果将单机扩至更大的集群,国产推理芯片有能力承载万亿参数级别模型的使用。

当前,推理芯片市场的竞争呈现碎片化特征,不仅有所谓训推一体的芯片厂商,也有专门面向推理场景的企业,如商汤芯片业务拆分出来的曦望公司。在技术路线上,推理芯片市场不仅存在海光信息、沐曦、壁仞这些GPGPU(通用GPU)玩家,ASIC(专用集成电路)的厂商也表现抢眼。如寒武纪、华为、阿里平头哥等均属于ASIC阵营。ASIC芯片厂商可以针对特定的推理任务进行深度优化,具备能效与成本上的优势。

互联网厂商如何直面推理芯片市场的激烈竞争?昆仑芯高级产品总监萧放在前述昆仑芯论坛上表示,昆仑芯可以聚焦特定场景做针对性的差异化设计,在架构层面引入适配的特殊工艺,形成性能优势与性价比优势。另外,还可以和百度算法团队密切合作,及时了解其对算法发展的前瞻性判断,从而在芯片设计的长周期过程中提前预判算法演进趋势。

互联网大厂本身的云业务和AI业务,更是为自研芯片提供了最直观的内部需求。百度集团执行副总裁沈抖在11月13日的百度世界大会上透露,昆仑芯P800芯片在百度内得到了充分验证,现在绝大多数的推理任务都跑在P800之上。

背靠中国头号云厂商阿里云的平头哥,也因此被一些市场人士看好。“大的云厂商,自己做的芯片一定是有市场的,谷歌就是一个很好的案例。”林清源认为,大厂自研AI芯片的下游需求是非常明确的。即使不对外出售自研的芯片,将其并入云服务的生意中让外部客户来使用,也等效于在卖芯片。此外,相较于外购第三方芯片,使用自研芯片避免了为外部供应商的高毛利买单,从而节省很大一笔成本。

昆仑芯等大厂旗下芯片公司,实际上并不满足于内部使用。例如,今年8月21日,昆仑芯对外宣布中标中国移动集采项目十亿级订单,该项目面向推理型的AI通用计算设备。林清源表示,如果大厂的自研芯片进入外部市场去“卷”,要么得拥有特别突出的性能,要么刚好它们为某个场景做的深度优化适合外部市场需求,除此之外就只能单纯地去比拼性价比了。

采写:南都N视频记者 杨柳

相关内容

中海石油气电集团、中广核研...
国家知识产权局信息显示,中海石油气电集团有限责任公司、中广核研究院...
2025-11-25 02:34:51
股票行情快报:日久光电(0...
证券之星消息,截至2025年11月24日收盘,日久光电(00301...
2025-11-25 02:34:49
11月24日精测电子发布公...
证券之星消息,11月24日精测电子发布公告《精测电子:武汉精测电子...
2025-11-25 02:34:39
省油灯网络科技申请具备故障...
国家知识产权局信息显示,深圳市省油灯网络科技有限公司申请一项名为“...
2025-11-25 02:05:42
荣凯川仪申请UPS电源远程...
国家知识产权局信息显示,重庆荣凯川仪仪表有限公司申请一项名为“一种...
2025-11-25 02:05:41
2025年度高功率密度电源...
随着新能源、轨道交通、航空航天等领域的快速发展,高功率密度电源市场...
2025-11-25 02:05:38
陕重汽申请新型车载高压逆变...
国家知识产权局信息显示,陕西重型汽车有限公司申请一项名为“一种新型...
2025-11-25 02:05:36
中国电科院申请一种发电机控...
国家知识产权局信息显示,中国电力科学研究院有限公司申请一项名为“一...
2025-11-25 02:05:34
柳州银行原董事长黎敦满被查...
近日,南都·湾财社记者从广西纪检监察网获悉,广西投资集团有限公司(...
2025-11-25 02:05:24

热门资讯

陕重汽申请新型车载高压逆变电源... 国家知识产权局信息显示,陕西重型汽车有限公司申请一项名为“一种新型车载高压逆变电源系统”的专利,公开...
股票行情快报:力鼎光电(605... 证券之星消息,截至2025年11月24日收盘,力鼎光电(605118)报收于26.35元,上涨1.9...
普德新星申请正端电流采样的恒流... 国家知识产权局信息显示,深圳市普德新星电源技术有限公司申请一项名为“一种正端电流采样的恒流电路及电子...
科翔股份:子公司华宇华源从事氮... 有投资者在互动平台向科翔股份提问:“尊敬的公司领导,请帮介绍一下公司的芯片封装业务,是采用的什么类型...
神州半导体取得一种考虑等离子体... 国家知识产权局信息显示,江苏神州半导体科技有限公司取得一项名为“一种考虑等离子体阻抗变化的功率变换系...
索尼半导体取得光检测装置专利 国家知识产权局信息显示,索尼半导体解决方案公司取得一项名为“光检测装置”的专利,授权公告号CN 11...
岩山科技:子公司3000万参投... 【11月24日岩山科技子公司参与投资4亿私募基金】11月24日,岩山科技(002195.SZ)公告透...
股票行情快报:波长光电(301... 证券之星消息,截至2025年11月24日收盘,波长光电(301421)报收于90.25元,上涨2.5...
股票行情快报:亚世光电(002... 证券之星消息,截至2025年11月24日收盘,亚世光电(002952)报收于20.75元,上涨2.2...
北京建筑大学党委书记郑宇履新北... 澎湃新闻记者从北京市民政局官网获悉,郑宇已任北京市民政局党组书记。 公开资料显示,郑宇,男,汉族,1...