智谱AI在华为芯片上成功训练多模态图像生成模型_电池技术

创始人

2026-01-20 00:08:13

0次

中国智谱AI公司完全使用华为处理器训练图像生成模型，证明中国企业在无法获得先进西方芯片的情况下，仍能构建具有竞争力的AI系统。

该模型于周二发布，智谱在声明中表示，这是首次有最先进的多模态模型在中国制造的芯片上完成全部训练周期。这家总部位于北京的公司在华为昇腾Atlas 800T A2设备上使用MindSpore AI框架训练模型，从数据预处理到大规模训练的整个流程都无需依赖西方硬件。

对于智谱而言，这一成就具有战略意义。去年，美国商务部将智谱列入因涉嫌与中国军方有联系而违背美国国家安全或外交政策利益的实体清单。这一指定有效切断了该公司获得英伟达H100和A100 GPU的渠道，而这些GPU已成为训练先进AI模型的标准配置，迫使中国企业围绕国产芯片架构开发替代方案。

被列入清单后，智谱开始与华为在GLM-Image项目上合作。华为昇腾处理器已成为受限无法购买英伟达硬件的中国AI公司的主要替代选择。该模型在昇腾芯片上的成功训练提供了一个数据点，证明中国企业尽管在获得西方芯片方面受到限制，仍能开发出具有竞争力的AI系统。

智谱在声明中补充道："这证明了在国产全栈计算平台上训练高性能多模态生成式模型的可行性。"

智谱通过API提供GLM-Image服务，每生成一张图像收费0.1元人民币（约0.014美元）。该公司在GitHub、Hugging Face和ModelScope社区发布了模型权重，供独立部署使用。

这一定价使GLM-Image成为企业大规模生成营销材料、演示文稿和其他文字密集型视觉内容的经济高效选择。

根据智谱的技术报告，GLM-Image采用混合架构，结合了90亿参数的自回归模型和70亿参数的扩散解码器。自回归组件处理指令理解和整体图像构图，而扩散解码器专注于渲染精细细节和准确文本。

该架构解决了生成知识密集型视觉内容时的挑战，在这些场景中语义理解和精确文本渲染都很重要，如演示幻灯片、信息图表和商业海报。

在衡量多个图像位置文本放置准确性的CVTG-2K基准测试中，GLM-Image获得了0.9116的单词准确度分数，在开源模型中排名第一。该模型在LongText-Bench扩展文本段落渲染测试中也领先，在包括标识、海报和对话框在内的八个场景中，英文得分0.952，中文得分0.979。

报告补充说，该模型原生支持从1024×1024到2048×2048像素的多种分辨率，无需重新训练。

在昇腾硬件上训练GLM-Image要求智谱为华为芯片架构开发定制优化技术。该公司构建了一个训练套件，实现动态图多级流水线部署，使训练过程的不同阶段能够并发运行，减少瓶颈。

智谱还创建了与昇腾架构兼容的高性能融合算子，并采用多流并行来在分布式训练期间重叠通信和计算操作。这些优化旨在从运行方式与大多数AI框架默认针对的英伟达GPU不同的硬件中提取最大性能。

这一技术方法验证了竞争性AI模型可以在中国国产芯片生态系统上训练，尽管开发时间和工程投入的成本尚不明确。

智谱没有说明训练其模型使用了多少处理器或花费了多长时间，也没有说明相比同等英伟达系统的要求如何。

对于在中国运营的跨国企业而言，GLM-Image在国产硬件上的训练为中国AI基础设施能够支持最先进模型开发提供了证据。在中国有业务的公司可能需要评估是否要围绕华为昇腾等平台和MindSpore等框架制定策略。

该发布正值中国企业投资国产AI基础设施替代方案之际。出口管制是否会放缓还是加速并行AI生态系统的发展，仍然是政策辩论的主题。

Q&A

Q1：GLM-Image是什么？有什么特别之处？

A：GLM-Image是智谱AI公司开发的图像生成模型，特别之处在于它是首个完全在中国制造芯片上训练的最先进多模态模型。它采用混合架构，结合90亿参数自回归模型和70亿参数扩散解码器，擅长生成包含准确文本的图像内容。

Q2：GLM-Image的性能表现如何？

A：在CVTG-2K基准测试中，GLM-Image获得0.9116的单词准确度分数，在开源模型中排名第一。在LongText-Bench测试中，英文场景得分0.952，中文场景得分0.979，原生支持1024×1024到2048×2048像素多种分辨率。

Q3：普通用户如何使用GLM-Image？费用如何？

A：用户可以通过API使用GLM-Image，每生成一张图像收费0.1元人民币（约0.014美元）。智谱还在GitHub、Hugging Face和ModelScope社区发布了模型权重，支持独立部署，主要面向需要大规模生成营销材料、演示文稿等的企业用户。

GLM-Image 成功公司华为模型训练芯片中国图像智谱英伟达