一文看懂华为昇腾芯片
创始人
2025-06-19 23:08:10
0

文末有抽奖赠书福利

最近这几年,网上关于华为昇腾的讨论很多,关注热度也很高。

我们经常说的昇腾,其实有两层定义。

一层是狭义的定义,特指华为昇腾芯片。

昇腾910芯片

另一层是广义的定义,是指围绕昇腾芯片的整个全栈计算生态。既包括硬件,也包括软件、算法以及应用服务。

来自《昇腾计算产业发展白皮书》

今天这篇文章,小枣君主要说说昇腾芯片和硬件体系。

昇腾芯片的演进

昇腾(Ascend)芯片是华为(海思)自研的、专门面向高性能AI计算的NPU(神经网络处理器)芯片。

现在AI浪潮风起云涌,到处都在搞AI大模型,还有AI应用落地。这些工作涉及到巨量的AI训练和推理计算需求,就会用到昇腾这样的AI芯片。

昇腾的对标对象,毫无疑问就是英伟达的GPU系列。

因为众所周知的原因,英伟达的GPU对我们禁售(现在连阉割版的H20都不卖给我们了),所以,昇腾作为国产AI芯片,就发挥了重要的替代作用,也迎来了巨大的市场机遇。

昇腾芯片是一个大系列,主要包括昇腾310和昇腾910两个子系列。

在2018年的华为全联接大会上,华为轮值CEO徐直军首次阐述了他们的AI战略,并正式公布了昇腾910和昇腾310两款AI芯片。当时,实体展示的,是昇腾310。

一年后,2019年8月,华为又正式推出了昇腾910。

昇腾310是SoC小芯片,和我们手机芯片差不多,只有指甲盖那么大,功耗仅有8W。

它集成了多个运算单元,包括CPU(8个ARM A55 Core)、AI Core、数字视觉预处理子系统等,主要面向边缘计算与低功耗终端,以完成AI推理任务为主。

AI Core是计算核心,采用了华为自研的达芬奇(DaVinci)架构,复杂执行矩阵、向量、标量计算的算子任务。CPU负责非矩阵类复杂计算。

昇腾310架构

根据海思官网的披露,昇腾310的FP16算力为8TOPS,INT8算力为16TOPS,采用12nm工艺制造。

昇腾910是大芯片,和我们的掌心差不多大,功耗在300W以上,主要面向云端高性能计算。它的算力更强,既能用于AI推理任务,也能用于AI训练任务。

华为早期发布的昇腾910,其实应该算是 910A。

当时,因为华为还没有被完全禁售,所以910A仍然采用了台积电的7nm增强版EUV工艺。

芯片内建了32颗达芬奇Max核心(达芬奇核心分为Max/Lite/Tiny三种,Max最完整),支持混合精度计算(FP16/FP32/INT8),FP16算力为256TFOPs,最大功耗350W(一开始说是350W,后来变成了310W)。

达芬奇架构参数(来自第31届Hot Chips大会)

2020年华为被列入实体清单后,台积电那边的先进工艺就用不了。于是,华为与中芯国际(SMIC)合作,采用他们的N+1工艺(等效7nm),推出了 910B。

910B优化了架构设计,提升了能效比,芯片尺寸为21.32mm×31.22mm,FP16算力约320TFLOPS,INT8算力约640TOPS。显存为64GB HBM2e,显存带宽400GB/s。

910B也分为B1/B2/B3。910B3引入了HBM3e内存,带宽提升至1.2TB/s,支持万亿参数模型训练。

来自知乎(万文友)

最近这两年,华为又推出了 昇腾910C。

昇腾910C采用中芯国际的7nm(N+2)工艺,晶体管数量达到530亿。

910C采用了类似B200的双die封装设计(将两颗独立的芯片die分别放置在各自的中介层,再通过有机基板将两个中介层连接起来),通过把两颗昇腾910B整合到一起,实现了性能的提升。

这种封装方式虽然在芯片间互联带宽上可能低于英伟达的先进封装方案,但具有更低的成本、更高的良率以及更快的量产速度。

业界估测,910C在FP16精度下的单卡算力能达到800TFLOPS左右,大概是英伟达H100芯片(2022年推出)的80%。

值得一提的是,910C的芯片逻辑面积大约比H100多60%。这意味着910C在架构效率和设计优化方面, 与H100依然存在差距。

910C的HBM高带宽内存仍然来自海外厂商(国内DRAM制造商长鑫存储HBM2e相关技术还需要再等等)。芯片的整体国产化比例据说已经达到90%以上。

910C的各方面参数以及进展信息都比较神秘。

根据网络上的不可靠信息,910C于2024年四季度推出样片,2025年一季度开始量产,目前已经处于大规模出货阶段,全年销量大概在70-80万颗。

也有不可靠消息指出,2024年910B的出货量约四十万张,今年910B出货量可能与去年持平或略低(约30万张),而910C的出货量预计可能超过40万张。因此,华为今年910B+910C的整体出货量可能是70-100万张。

出货量和产能也有很大关系。中芯国际N+2工艺良率去年只有20%,今年据说已经达到40-50%,分配给910C的产能貌似是2.6万片晶圆/月(数据不靠谱,仅供参考,与我无关)。

价格方面,910B的均价据说大约是11万/片,910C可能是18-20万/片。网上很多文章说910C价格是1800美元,我觉得不靠谱。相比之下,英伟达H100的市场价格,大约是2.5-3万美元/张。

值得一提的是,华为前段时间推出的CloudMatrix 384超节点,由384颗昇腾910C芯片构建,系统性能比英伟达的GB200 NVL72更强。

这属于典型的“群殴”模式。虽然单芯片的性能打不过,但通过系统层面的创新,组成更大规模的集群,也能一定程度弥补差距,满足算力需求。

在连接方面,需要提一下华为自研的 HCCS高速互连接口。

昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口,可以灵活高效地实现横向扩展(Scale Out)和纵向扩展(Scale Up)。

HCCS对标的是英伟达的NVLINK,能够给内核、设备、集群提供系统内存的一致访问。在单一链路的单向/双向互联带宽上,HCCS有显著优势,可以有效提升多个Al芯片协同训练的能力。

910C之后,据说还有910D,采用5nm制程,4Die封装,支持FP8。今年5-6月份回片,预期2026Q2-Q3大规模量产。这个消息的来源不可靠,同样仅供参考。

再往后,华为可能就会推出昇腾920系列,采用下一代工艺,更先进制程,努力缩小和英伟达的差距。

哦,对了,差点忘了说,华为除了昇腾310和910之外,其实还有 昇腾610。

昇腾610也称为MDC610,是智能驾驶芯片,用于华为自己的智能驾驶平台(MDC)。根据资料显示,昇腾610采用了7nm制程,AI算力达到200TOPS@INT8或100TFLOPS@FP16,目前已经实现量产。

昇腾610芯片(图片来自网络)

昇腾硬件体系

基于昇腾芯片,华为开发了AI算力板卡、服务器、集群等一系列硬件产品,如下图所示:

这些硬件覆盖了边缘推理、云端推理、云端训练三大场景,可以满足不同行业用户的AI计算需求。

Atlas 200I DK A2,是面向开发者的高性能AI开发套件,集成了昇腾310芯片,内置2个Al core,可支持128位宽的LPDDR4X,最大算力为22TOPS。

Atlas 200I DK A2

Atlas 300T训练卡,基于昇腾910芯片,集成32个达芬奇AI核+16个TaiShan核,能够提供280TFLOPS FP16 算力,并集成了一枚100GE RoCE v2网卡,支持PCIe 4.0和1*100G RoCE高速接口。内存规格方面,包括32GB的HBM和16GB的DDR4。

Atlas 300T A2训练卡,强化了高速接口和对PCIe 5.0的支持,集成20个AI 核、8个CPU核、1*200GE RoCE,提供280TFLOPS FP16 算力。

Atlas 300T A2训练卡

Atlas 300I Pro推理卡,采用24GB LPDDR4X,单卡最大提供140TOPS INT8 算力。

Atlas 300I Duo推理卡,采用48GB LPDDR4X,总带宽 408GB/s,从表观上看是两颗昇腾310的组合产品,单卡最大提供280TOPS INT8 算力。

Atlas 500 A2智能小站,是面向边缘应用的产品。

Atlas 500 A2智能小站

Atlas 800训练服务器,采用了8颗昇腾910(NPU)+4颗鲲鹏920(CPU),广泛应用于深度学习模型开发和训练。

Atlas 800推理服务器,最大可支持8个Atlas 300l推理卡,广泛应用于数据中心侧的AI推理场景。

Atlas 800I A2推理服务器

Atlas 900是Al智算集群,包括了数千颗昇腾芯片,总算力达到256~1024P FLOPS@FP16,相当于50万台PC的计算能力。

Atlas 900智算集群

Atlas 900集群由Atlas 900 PoD集群基础单元组成。每个单元就是一个机柜,搭载超了32颗鲲鹏920,47U高度可最大提供20.4PFLOPS@FP16的算力。机柜采用液冷散热,最大功耗为46KW。

好啦,以上就是关于华为昇腾硬件体系的全部介绍。

欢迎纠错,也欢迎补充更多信息!谢谢!

内容简介

本书围绕昇腾AI处理器开发应用实践目标,不仅系统性地讲述全栈AI 计算技术体系,还深入浅出地介绍工程化的开发方法与技术。

本书首先介绍基础知识,包括人工智能基础、深度学习技术、智能计算技术等;其次介绍AI 处理器基础知识,包括神经网络加速原理、深度学习芯片架构、深度学习软件栈、全栈AI计算技术体系等;再次介绍昇腾AI处理器软硬件架构,包括达芬奇架构、昇腾310/910处理器架构、昇腾开发软件栈与工具链等;最后介绍昇腾AI 处理器开发流程及编程方法。此外,本书还详细介绍昇腾AI 开发实践案例,包括开发环境部署、基础模型开发案例、模型进阶开发探索、辅助工具应用实践等。本书提供配套资源,包括工程示例、源代码、平台配置信息等,旨在为读者提供体系化的实践训练,让读者能够学以致用,快速形成全栈AI开发的系统能力。

本书可作为高等院校计算机、人工智能、云计算、大数据等相关专业的教材,也可作为ICT培训机构智能计算方向的教材,还可作为人工智能领域从业人员的参考书。

参考资料:

1.《昇腾计算产业发展白皮书》,华为&信通院;

2.《昇腾发力铸造国产算力基石》,国投证券;

3.《昇腾万里,力算未来》,华安证券;

4.《华为昇腾:国产 AI 算力“扛旗者”》,民生证券;

5.《华为昇腾服务器研究框架》,浙商证券;

6.《“鲲鹏”展翅,“昇腾”万里》,东莞证券;

7.科技分析师Lennart Heim (@ohlennart) 在X平台发布的分析文章;

8.《华为发布全球算力最强 AI 处理器,达芬奇架构巨无霸芯片昇腾 910 问世!》,新智元;

9.《解读神秘的华为昇腾910》,周博洋,知乎;

10.华为官网、华为云社区。

互动福利

各位读者, 小悠每周将在微信朋友圈进行抽奖送书活动,抽取四位幸运读者送出我们的重点新书。机会难得,不容错过哦!

相关内容

原创 ...
开车的朋友都有过这种心跳加速的瞬间吧?跟着前车走得好好的,一抬头发...
2025-12-15 01:06:13
2026鲁教版高中地理选择...
为了帮助高中生自主预习与有效复习,我们整理了2026新教材鲁教版高...
2025-12-15 00:08:39
2026鲁教版高中地理选择...
为了帮助高中生自主预习与有效复习,我们整理了2026新教材鲁教版高...
2025-12-15 00:06:53
2026春季新教材鲁教版八...
2026年春季初二学生部分科目将迎来新版教材,新版教材特别强调知识...
2025-12-14 23:40:32
2026春季新教材湘教版八...
2026年春季初二学生部分科目将迎来新版教材,新版教材特别强调知识...
2025-12-14 23:38:36
2026湘教版高中地理选择...
为了帮助高中生自主预习与有效复习,我们整理了2026新教材湘教版高...
2025-12-14 23:36:49
泽连斯基:美欧不支持乌加入...
据央视新闻消息,当地时间12月14日,乌克兰总统泽连斯基在接受采访...
2025-12-14 23:35:19
萨姆纳26分郭昊文空砍42...
【搜狐体育战报】北京时间12月14日CBA常规赛第1轮,主场作战的...
2025-12-14 23:06:25
漏电保护动作电流,该如何选...
漏电保护动作电流该如何选择? 漏电动作电流是如何选择的?还有哪几种...
2025-12-14 22:36:06

热门资讯

原创 电... 开车的朋友都有过这种心跳加速的瞬间吧?跟着前车走得好好的,一抬头发现红灯亮了,自己的车已经压过停止线...
国家安全部披露:企业展示最新芯... 12月12日,“国家安全部”微信公众号发文表示,科技展会不仅是企业开拓市场、合作成交的黄金舞台,也是...
赛英电子北交所IPO12月19... 北京商报讯(记者 马换换 李佳雪)近期,北交所官网显示,江阴市赛英电子股份有限公司(以下简称“赛英电...
共模滤波器厂家怎么选?这些要点... 在电子设备的电磁兼容(EMC)领域,共模滤波器起着至关重要的作用,它能有效抑制共模干扰,保障设备的稳...
男子海钓以为钓到百斤“狠货”,... 近日,广西北海一男子在海上钓鱼,感觉鱼竿被重物拉扯,费了好大劲才慢慢往岸边拉,心里还窃喜钓上了罕见百...
原创 无... 自从美芯禁令生效后,中美的科技冷战就正式拉开帷幕。而为了可以更好的打压中国半导体,除了要求美本土科技...
合粤HTZ系列牛角型铝电解电容... 产品名:牛角电解电容 系列/类型:HTz(两极) 工作温度范围-40~105 ℃ 尺寸⌀ D30mm...
中航光电招标结果:热管理仿真平... 证券之星消息,根据天眼查APP-财产线索数据整理,中航光电科技股份有限公司12月11日发布《热管理仿...
中科软中标:山西省因公赴港澳通... 证券之星消息,根据天眼查APP-财产线索数据整理,根据中共山西省委台湾工作办公室12月12日发布的《...