近年来,随着人工智能(AI)技术的爆发式增长,英伟达(NVDA.US)与AMD(AMD.US)等主流芯片巨头纷纷将研发重心和产能向利润丰厚的AI低精度计算倾斜。然而,这一战略转向正在产生一个令人意想不到的连锁反应——美国国家实验室因难以采购到满足高精度科学计算需求的芯片,开始将目光转向新兴芯片初创公司。据报道,位于新墨西哥州科特兰空军基地的桑迪亚国家实验室,正在测试以色列初创公司NextSilicon的芯片,以寻求突破供应链困境的新路径。
大厂转向AI,高精度计算需求遭“冷落”
桑迪亚国家实验室是美国三大负责核武器研发与维护的实验室之一。其基地内的液冷超级计算机常年承担着极端复杂的模拟任务——从模拟高超音速核武器穿越大气层的轨迹,到推演一枚核弹头在另一枚附近引爆的场景。过去十余年间,处理这些高机密、高需求任务的芯片主要来自英伟达和AMD等主流半导体企业。
然而,桑迪亚实验室高性能计算团队主管Steve Monk表示,随着主流芯片公司日益将产品设计向AI倾斜并面临供应链短缺,实验室在获取满足其高精度科学计算需求的芯片方面承受着越来越大的压力。从供应链到计算能力,双重压力让团队对未来任务交付能力感到担忧。
核心分歧在于一项被称为“双精度浮点计算”(FP64)的技术指标。对于核武器物理模拟等科学计算而言,芯片需要能够在不损失精度的情况下同时处理极大和极小的数值。多年来,英伟达和AMD一直在追求加速此类计算的领先地位,并凭此获得了众多大学与政府实验室的超算合同。但AI训练和推理工作并不依赖双精度计算,这使得芯片设计的天平开始倾斜。
FP64是维系现代飞机飞行、火箭升空、疫苗研发乃至核武器正常运作的关键技术,能够表达超过18.44万亿亿个唯一数值,是科学计算领域的“黄金标准”。相比之下,现代AI模型通常使用FP8精度进行训练,仅能表达256个唯一值。
英伟达最新发布的Rubin GPU虽然在AI算力上实现了质的飞跃——推理速度达到50 petaFLOPS,是上一代Blackwell的2.5倍——但其FP64峰值性能约为33 teraFLOPS,实际上比四年前推出的H100还要低1 teraFLOPS。尽管英伟达推出了基于Ozaki方案的FP64软件仿真技术,声称可在CUDA库中实现高达200 teraFLOPS的矩阵性能,是硬件性能的4.4倍,但AMD方面对此提出质疑。AMD研究员Nicholas Malaya指出,这种仿真方法在某些基准测试中表现尚可,但在材料科学或燃烧代码等真实物理模拟中的可靠性存疑,且存在IEEE合规性不足、内存消耗翻倍等问题。
芯片咨询公司More Than Moore的首席分析师Ian Cutress指出,英伟达即将推出的Rubin芯片在双精度性能方面,按某些指标衡量反而有所下降,这让高性能计算领域的许多科学家感到担忧。
初创公司趁势崛起
芯片巨头的战略调整,正在为NextSilicon等新锐企业打开市场空间。这家成立于2017年的以色列初创公司,经过八年研发,已累计完成约3.03亿美元的种子轮及三轮风险融资,估值一度达到约15亿美元。
与英伟达和AMD基于GPU或CPU的传统技术路线截然不同,NextSilicon的旗舰芯片“Maverick-2”采用智能数据流架构,能够通过软件定义的数据流硬件实现运行时动态重构与优化,芯片可实时重新编程以更高效运行。在电力效率方面,数据流架构减少了数据在计算系统内存之间来回搬运的时间和能耗。
桑迪亚国家实验室负责测试新型计算架构项目的高级科学家James Laros对此给出了高度评价:“NextSilicon的性能结果令人印象深刻,展现出在无需大量代码修改的情况下提升计算能力的真正潜力。”
周一,桑迪亚国家实验室、NextSilicon以及帮助将NextSilicon芯片集成到超级计算机中的Penguin Solutions联合宣布,搭载NextSilicon芯片的超级计算机系统已通过一系列通用超算测试的关键技术里程碑,使其有资格在今年秋季进一步接受更贴近核安全实际工作的高难度计算任务测试。
Laros表示,实验室积极携手NextSilicon这类中小芯片企业,核心目的是构建多元化芯片采购体系,即便头部芯片企业战略赛道转移,也能持续稳定获取适配科研任务的算力芯片。
“我们必须保持可用的选择来完成使命,因为这项使命没有退路,”Laros强调。
来源:智通财经