据微信公众号“北京大学人工智能研究院”13日消息,北京大学人工智能研究院孙仲研究员团队及合作者在国际学术期刊Nature Electronics杂志发表论文,在新型计算架构上取得重大突破。
研究团队成功研制出基于阻变存储器的高精度、可扩展模拟矩阵计算芯片,首次实现了在精度上可与数字计算媲美的模拟计算系统,将传统模拟计算的精度提升了惊人的五个数量级。相关性能评估表明,该芯片在求解大规模MIMO信号检测等关键科学问题时,计算吞吐量与能效较当前顶级数字处理器(GPU)提升百倍至千倍。
据了解,我们熟悉的通信基站信号处理、AI大模型训练参数优化等,本质都是在解复杂的矩阵方程。采用数字方法实现高精度矩阵求逆的计算开销极大,耗时长、能耗高。于是,曾被视为老旧技术的模拟计算重新进入研究视野,它直接利用物理定律实现并行运算,延时低、功耗低,在算力瓶颈背景下,具有先天优势。
但如何让模拟计算兼具高精度与可扩展性,从而在现代计算任务中发挥其先天优势,一直是困扰全球科学界的世纪难题。
孙仲团队选择了一条融合创新的道路,通过新型信息器件、原创电路和经典算法的协同设计,构建了一个基于阻变存储器阵列的高精度、可拓展的全模拟矩阵方程求解器,首次将模拟计算的精度提升至24位定点精度。
孙仲介绍,研究团队基于迭代算法,结合了模拟低精度矩阵求逆和模拟高精度矩阵-向量乘法运算,开发了一种基于全模拟矩阵运算的高精度矩阵方程求解方案,先快速算出矩阵方程的“近似解”,再用“位切片”方法,实现迭代细化。
在计算精度方面,团队在实验上成功实现16×16矩阵的24比特定点数精度求逆,矩阵方程求解经过10次迭代后,相对误差可低至10⁻⁷量级。在计算性能方面,在求解32×32矩阵求逆问题时,其算力已超越高端GPU的单核性能;当问题规模扩大至128×128时,计算吞吐量更达到顶级数字处理器的1000倍以上,传统GPU干一天的活,这款芯片一天就能搞定。同时,该方案在相同精度下能效比传统数字处理器提升超100倍,为高能效计算中心提供了关键技术支撑。
团队将它应用到了“大规模MIMO(多输入多输出)信号检测”中——仅用3次迭代,恢复的图像就和原始图像高度一致,误码率和32位数字计算效果相当,凸显其在实时信号处理中的潜力。
“我们证明,模拟计算能以极高效率和精度解决现代科学和工程中的核心计算问题。”孙仲强调,这项突破的应用前景广阔,可赋能多元计算场景,有望重塑算力格局。团队的研究为算力提升探索出一条极具潜力的路径,有望打破数字计算的长期垄断,开启一个算力无处不在且绿色高效的新时代。
(综合自北京大学人工智能研究院、科技日报等)