文 | 半导体产业纵横
曾因精准预测2008年次贷危机而闻名的“大空头”迈克尔·伯里(Michael Burry),近日把矛头对准了AI赛道。确切地说,是AI芯片的折旧问题。
伯里发文称,那些所谓的“超大规模算力服务商”,正在通过延长芯片折旧年限、压低折旧费用,人为放大AI热潮带来的账面利润。这种操作被他称为“现代财报中最常见的欺诈之一”。
他估算,从2026年至2028年,这种会计处理方式可能导致整个行业低估约1760亿美元的折旧支出。他特别点名甲骨文和Meta,预测到2028年,两者的利润可能分别被高估约27%和21%。
此言一出,顿时引起了巨大关注,又恰逢近期人工智能泡沫论风头正劲,众多媒体、分析师、公司高管纷纷对关于芯片折旧以及由此延申出来的科技巨头资本支出问题发表了看法。
那么,一块AI芯片的真实“寿命“究竟是多久?芯片折旧是不是未来引爆AI泡沫的雷点?科技巨头有没有为了美化利润表而“撒谎“?
这次,答案真的关乎万亿美元市场。
芯片折旧期,存在分歧
要理解这场争论的核心,首先需要厘清“折旧”在AI数据中心语境下的具体含义及其对财务报表的巨大影响。
折旧(Depreciation)是会计学中将固定资产成本分摊到其预期使用寿命内的做法。对于动辄数万美元的AI芯片,企业不会在购买当年将其成本一次性计入费用,而是根据预估的“使用寿命”逐年摊销。
这个“使用寿命”的设定,具有极大的财务杠杆效应。在总投入不变的情况下,折旧年限越长,每年分摊的折旧费用就越低,当期的净利润数据就越好看。反之,如果折旧年限缩短,当期利润将承受巨大的成本压力。
而在过去两年中,随着AI资本支出的激增,全球科技巨头们不约而同地采取了延长服务器资产使用寿命的会计策略:
然而,在巨头阵营中也出现了“异类”。亚马逊曾在2024年将服务器使用寿命从五年延长到了六年,又在今年将部分服务器设备的使用年限从六年缩短至五年,并公开承认原因是观察到“技术发展速度加快,尤其是在人工智能和机器学习领域”。
不过,在许多人看来,即使是缩短后的五年也显得过于乐观,而如此乐观的估计隐藏着巨大风险。据分析,如果以上五个云巨头的服务器在三年内,而不是各公司假设的年限内失去价值,它们的年度税前利润总和将减少260亿美元,即去年总利润的8%。
而按照这五家公司目前的市值与税前利润之比计算,这将导致其总价值缩水7800亿美元。如果重新计算,假设服务器折旧期为两年而不是三年,缩水规模将升至1.6万亿美元。
那么,问题就变成了,多少年的芯片折旧期,才是合理的?
芯片“寿命”,比想象中要短?
那些认为算力服务商芯片折旧期估计过于乐观的人,有如下的观点:
首先是高强度的物理损耗。据谷歌一位GenAI架构师透露,数据中心GPU几乎承担了AI训练和推理的全部负载,其性能下降速度比其他任何组件都快。在云巨头数据中心常见的60%到70%的高利用率下,GPU的寿命被缩短至一到两年,最多三年。

这一观点得到了Meta公司研究数据的侧面印证。Meta在描述其使用Nvidia H100 GPU训练Llama 3模型时披露,即便在仅约38%的利用率下,由GPU故障(包括NVLink)和HBM3高带宽内存故障(HBM通常集成在GPU上)导致的训练中断,合计占总故障的47.3%。有分析推论,若将利用率提升至行业常见的60%-70%,其故障率可能显著增加。这表明,在AI训练中最重要的组件,GPU,同时也是最“脆弱”的。高强度的训练会导致频繁的硬件不稳定和维护需求,大幅增加了运维成本,降低了资产的有效产出率。

其次,是来自更先进芯片的技术淘汰。英伟达已将其产品迭代周期从两年缩短至一年,CEO黄仁勋在今年3月发布Blackwell芯片时也曾开玩笑般表示,“当Blackwell芯片开始量产时,Hopper芯片就无人问津了。”
AI芯片的生命周期更多时候不是由物理损耗决定,而是由技术迭代决定。谷歌TPU创始人之一、现Groq公司CEO Jonathan Ross的观点更为激进。他表示,Groq正采用1年期的芯片摊销,并直言那些采用3到5年摊销期的人“完全错了”。
最后一点是资产的“经济寿命”。在数据中心电力容量成为核心瓶颈的当下,“每瓦特Token产出”成为衡量资产价值的关键指标。
一份以NVIDIA H100服务器为例的投资回报(ROI)测算表明:一台搭载8卡H100的服务器,在2023年算力紧缺时,租赁价格高昂,仅需十多个月即可收回成本。然而,随着2024年供给缓解和租赁价格下滑,当中期租价降至每卡1美元/小时,测算显示,即使按100%售出率,5年总收入也无法覆盖包含设备购置和运维电力在内的总成本,最终反而亏损。
迈克尔·伯里也在X发文表示:“A100每FLOP消耗的电力是H100的2-3倍,因此仅电力成本就比H100高2-3倍。而英伟达声称H100在推理方面的能效比Blackwell低25倍。”
由于新一代芯片(如Blackwell)能效比显著提升,继续运行能效较低的旧芯片意味着占用了宝贵的电力容量,产生了巨大的机会成本。这种由能效比驱动的经济性淘汰,可能导致企业在物理寿命结束前提前退役旧硬件。
价值级联与巨头的支出合理性
然而,同样也有分析认为,科技巨头的较长芯片折旧期是合理的。其中代表性的观点是,大型科技公司在其硬件运营中采用“价值级联”模式,不会简单淘汰过时的芯片。
所谓的“价值级联”,是指巨头们利用工作负载的多样性,构建了一套硬件梯级利用体系。AI工作负载并非一成不变,而是分为对算力要求极高的“训练”和相对宽容的“推理”。虽然训练下一代基础模型确实需要Blackwell这样的最新芯片,但一旦进入推理阶段,需求就发生了分化。
对于实时聊天机器人等延迟敏感型任务,依然需要较新的硬件;但对于海量的、对实时性要求不高但对成本敏感的吞吐量敏感型任务——如离线数据分析、文档摘要、内容审核等——老旧芯片提供了极高的性价比。一台完全折旧的A100,虽然单次响应速度不如新一代芯片,但在处理大规模批处理作业时,其极低的总拥有成本使其极具竞争力。这种“新三年、旧三年”的级联模式,从根本上拉长了硬件的经济寿命。
这种长周期模式有其过往数据的支持。微软Azure的公开硬件退役政策显示,其采用Nvidia K80、P100 GPU的虚拟机系列直到2023年才退役,实际服役时间长达7-9年;而计划于2025年退役的V100系列,服役时间也接近7.5年。这证明在拥有丰富应用场景的巨头内部,硬件的生命周期可以超过技术迭代周期。
同时,支撑这一长周期逻辑的,不仅仅是技术上的可行性,还有财务上对于产能的迫切需求。
巨头们的巨额资本支出(CapEx)并非盲目投机,而是有着强劲的订单支撑。据统计,在2022年二季度至2025年二季度的三年间,五大科技巨头的“剩余履约义务”(RPO,即客户已签署、等待交付的合同订单)增速高达90.7%,超过了同期资本支出(约64%)的增速。这表明AI算力处于供不应求的状态。
微软手握近4000亿美元的积压订单,亚马逊AWS的积压订单也达2000亿美元。在履约压力下,巨头们必须进行大量投资。乐观者认为,面对这种史无前例的CapEx高峰,采用更长的折旧年限,将巨额成本平滑到未来5-6年的经营中,是一种避免当期利润产生灾难性波动、稳定投资者预期的合理财务策略。
结语
AI芯片折旧问题,实质上是技术加速迭代与资产管理模式之间的一次错配。
一方面,英伟达的1年迭代周期快速压缩了前沿芯片的性能寿命;另一方面,超大规模企业通过价值级联模式和爆棚的订单需求,试图构建一个可以让芯片服役6-7年的经济闭环。
这两种逻辑的博弈意味着,评估AI巨头真实能力的指标,不能再单纯依赖受会计估计影响显著的“净利润”。有分析师建议,应回归到企业的“经营性现金流”(CFO)本身。
只有那些能够通过真实的业务需求消化掉天量算力,并产生强劲现金流覆盖资本支出的企业,才能验证价值级联模式的有效性,并最终穿越技术迭代的周期。
无论如何,巨头之间疯狂的算力竞赛已经无法回头。马克·扎克伯格在Meta 2025年三季度财报电话会提到,最糟糕的情况不过是提前建设了未来几年所需的资源。但与其受限于资本支出,让核心业务原本可盈利却无法投入,还不如加快算力投资的进程,确保公司拥有足够的算力。
扎克伯格口中的“最糟糕的情况”会仅仅如此吗,还是像“大空头”所言,是一场足以席卷整个AI行业的风暴?