专家圆桌讨论:芯片架构师在为边缘AI处理器进行设计时,需要应对多项复杂因素,其中快速迭代的AI模型尤为棘手。《半导体工程》杂志就此议题组织了一场深度对话,参与者包括:Arm边缘AI产品管理总监Ronan Naughton、Cadence Tensilica DSP产品管理集团总监Amol Borkar、Cadence AI IP产品营销总监Jason Lawley、Expedera首席科学家兼联合创始人Sharad Chole、Silvaco旗下Mixel营销总监Justin Endo、Quadric首席营销官Steve Roddy、Rambus院士及杰出发明家Steven Woo博士、Siemens EDA IC验证与EDA AI产品负责人Sathishkumar Balasubramanian,以及Synopsys首席产品经理Gordon Cooper。以下为部分讨论内容摘录。

边缘端当前有哪些类型的智能体在运行?
Woo:目前大多数边缘智能体涵盖感知、推理,以及机器人场景下的规划与执行。这些任务通常在同一设备上协同运行,关键不仅在于推理本身,还在于系统观察、决策和响应的速度。这促使设计师重新审视内存层次结构、互连架构与安全边界。智能体的本质是整个系统的协调运作,而非仅仅是框图上的一个神经网络模块。
Chole:我们来厘清智能体AI与生成式AI的区别。最核心的区别在于自主性。生成式AI的运作模式是接收提示词,然后生成响应;而智能体AI在执行高层任务时拥有更强的自主性——你赋予它高层目标,它负责统筹规划、制定方案并推进落实。此外,智能体通常具备记忆访问能力,可以读取用户指令,类似CLAUDE.md文件,并能调用工具。它不是被动的——不只是处理你给出的提示词。它是主动的,可以查询当前日期、天气,或判断你最近是否,还可以调用你授权开放的API或工具接口。我并不是说它能访问你的根文件系统,但它能访问的内容相当广泛,类似于我们人类在自己的电脑上能做的事情。这在编程场景中尤为有用,因为它可以编译代码、运行测试等。这一切都源于工具调用能力。此外,智能体是真正在"思考"的机器——它不只是生成内容,而是在规划、思考,并端到端地执行任务,或对任务进行迭代。工具调用产生反馈后,智能体会基于反馈重新审视计划。这正是智能体区别于生成式AI的核心所在——你可以将其理解为多轮交互,但"轮次"的推进是通过工具完成的,而非人工介入。也正因如此,整体处理过程变得相当复杂。它不再是"给你一张图,生成另一张图"这样边界清晰的任务。如果任务边界明确,输入和输出的Token数量是有限的。但智能体并不总是如此——虽然存在最大Token限制,但实际消耗并不固定,这带来了一系列新挑战:可以分配什么类型的任务?可以将任务元素缩小规模、限制复杂度或工具调用数量,但即便如此,任务复杂度本身仍然决定了完成它所需的处理量。
Naughton:我们观察到,在私有智能体领域,用户自托管的大语言模型不仅可以访问私人媒体内容,还能接入日历等个人数据。例如,我可以让私有大语言模型在边缘端运行定时或自动化任务,充当我的个人助理。与此同时,边缘端编程智能体的兴起也十分明显——我可以在边缘设备上并行部署多个编程任务,让智能体自主运行,事后向我汇报结果。这是两种典型的个人边缘智能体应用场景。在移动端,我们也看到了一批新工具,能够快速完成应用导航——我只需给出一条指令,它可能会依次打开两三个应用来完成任务。
架构师如何在模型必然迭代的前提下启动项目并做出决策?
Woo:性能和功耗效率正日益由内存系统设计和数据搬移决定。架构师需要深刻理解目标应用场景,并对哪些功能值得占用硅片面积做出果断取舍,因为每一个额外特性都会影响PPA并增加复杂度,这些代价最终都会显现出来。芯片设计师应当将数据搬移置于首位,因为性能与功耗效率的胜负就在这里决出。此外,如何集成合适的RAS方案以实现高可靠性和高可用性,确保系统运行可预期且值得信赖,也是不可忽视的复杂挑战。
Roddy:这要求架构师在系统中尽可能地追求通用性和灵活性,因为我们无法预知未来嵌入式智能体的形态,也无法判断它在计算或通信方面需要多大的"马力"。想象一下你的下一辆车可能搭载的车辆健康智能体:它应该提示你何时保养?现在是靠你自己观察——你考虑自己的驾驶习惯,如果家人也用这辆车,你还要考虑谁在什么时间、什么地点开。但如果这个智能体足够聪明,能够知道谁开得最多,预测所有系统的维护需求,了解季节和天气,并且知道周末快到了——它甚至可以判断:斯蒂芬一家每周末都去滑雪,轮胎快磨光了,雪况将会很差,也许应该去换新轮胎了。智能体可以掌握大量情境信息。而同一辆车,如果停在车库里、只有奶奶每周日去教堂时才开,其需求就会截然不同。未来这类智能体会存在吗?它能否适应周围环境、主动与车主或驾驶员沟通、并从交互中持续学习?要支撑这类应用,计算基础设施需要具备怎样的通用性?
Lawley:在我看来,这些智能体最终都指向多模态AI。就像Steve说的车辆智能体那个例子——智能体能不能直接拨打电话,联系人工,和真人对话?这就需要用到音频技术做降噪、语音识别,再结合语言模型来帮你预约服务,最后回来告诉你:"你的车已经预约好了。"我看到整个智能体的世界将从根本上改变我们与计算的交互方式,尤其是边缘端的计算。
Roddy:再延伸一下:假设你从湾区开车去南加州参加一个活动,途中车辆出了问题,智能体需要帮你在当地找一家服务中心。它能否识别你购买了延保合同?能否找到你的授权经销商?或者根据你平时爱用Yelp、偏好五星好评服务商的习惯,为你推荐合适的独立维修店?它应该足够聪明,知道如何为你指路并节省时间。而这正是现在的车辆做不到的——现在的车顶多在仪表盘上亮一个低油压警示灯,仅此而已,不会帮你解决问题。
Lawley:从架构师视角来看,有一点是确定的:模型的灵活性至关重要。未来将出现各种不同的浮点数表示形式,智能体可能依赖多种不同类型的模型,因此让计算单元和构建模块足够灵活、能够处理多样化的模型类型,对架构师而言极为重要。
Cooper:我完全同意。你提到了多模态需求。对于我们这些在定义下一代NPU的人来说,我们正在加速的是一个与系统中主处理器协同工作的模块,这是一个系统级问题。从NPU的视角来看,核心挑战在于:如何足够灵活地支持正在涌现的各类多模态模型——VLA(视觉-语言-动作)、VLM(视觉-语言模型)等等。这是边缘端NPU设计者面临的真实挑战。
Chole:我想从部署角度补充几点。运行智能体工作负载时,任务是长期持续运行的,因此它们必须在后台稳定运行,这是首要前提。为了保证后台运行尽可能高效,需要重点关注以下几点:支持MoE(混合专家)架构——因为边缘端没有批处理,MoE模型变得至关重要,即使是小模型也是如此;支持KV缓存量化技术,例如Turbo Content等方案——这些技术能避免反复加载庞大KV缓存所带来的带宽浪费,即使采用稀疏注意力机制后智能体仍会产生大量KV缓存;运行时部署还需支持前缀缓存等内存管理机制,同时具备工具调用能力。简而言之,我们正在将数据中心推理服务商所具备的服务器级能力迁移到边缘端,力求在最小化资源占用的前提下让边缘智能体发挥出最大潜力。至于模型未来将如何演进——坦率说,我希望尽量稳定。如果你问我边缘端运行智能体在哪些方面优于数据中心,我目前还没有明确答案。遗憾的是,对于联网设备而言,除了隐私保护这一理由之外,我目前仍难以找到充分理由推荐将智能体部署在边缘端。
当前边缘AI或智能体边缘AI中最值得关注的应用是什么?
Woo:最具吸引力的应用出现在时效性要求极高的系统中,例如工业自动化、机器人和汽车传感。这些系统借助智能体行为,对变化的输入做出实时自适应响应,而不仅仅是执行分类任务。从硬件角度来看,挑战在于在处理连续数据流的同时保持低延迟——这一组合正在推动内存带宽、功耗效率和系统级集成方面的持续创新。
Lawley:应用场景无处不在,几乎涵盖了所有人能想到的边缘应用,而且还不断有人在我们尚未想到的领域开辟出新的使用案例,很难点名某一个具体方向。
Roddy:我们看到大量制造商和系统集成商正在思考大语言模型和小语言模型如何重塑人机交互界面——无论是你与汽车的交互方式,还是工厂技师与设备的沟通方式,乃至你与厨房微波炉的互动。试想:如果微波炉没有实体按键,只需语音操控,是否能降低成本?因为去掉了触控面板和各种容易损坏的零部件,微波炉的制造成本是否可以降低?工厂设备上的麦克风、扬声器和显示屏,是否可以取代塞在侧面板里的那本600页操作手册?想想节省下的印刷成本,以及手册丢失带来的麻烦。现在买辆新车,你不会再收到厚厚一本错误代码手册了——你只需直接问车,它就能告诉你发生了什么。产品的物理形态正在因此发生变化,成本在降低,用户体验在提升,而这一切都源于能够在边缘端运行一个300亿参数的模型。它不一定非得是智能体,但它确实让人与设备的交互方式发生了根本性转变。
Balasubramanian:我见到了不少正在开发中的个人健康助手,它们不只是感知,还能主动采取行动。各类应用层出不穷。Siemens与Meta合作,在工厂车间引入了Ray-Ban Meta智能眼镜,这是人类与边缘AI深度结合的典型案例。工人佩戴眼镜在厂区行走,每走到一台设备旁,眼前就会弹出状态看板,显示一切正常、出现异常或需要维护等信息。我不清楚这些处理到底是在边缘端完成还是仍连接到中央节点,但这类工业应用案例正是我们所看到的趋势——感知信息、推断状态、按需行动。"如何基于感知结果采取行动"将是下一个重大命题。这是一个令人兴奋的时代。我也试用过很多AI笔记工具,一个共同挑战是功耗问题——随着处理任务越来越多,功耗效率变得愈发关键。
Cooper:感知AI已经相当成熟,人们正在真正找到自己的实际应用场景,并尝试将生成式AI融入其中。在汽车领域,车舱内的应用是一个典型例子——理论上,你可以指着窗外说"那是什么建筑",多模态AI能够识别你指的方向,看到车窗外的画面,知道车辆的地理位置,理解你的提示词,给出完整的回答。实体AI与机器人技术也正在兴起——汽车、无人机、人形机器人。英伟达对此非常乐观,尽管不是所有人都准备好在家里迎接一个叠衣服的人形机器人,但这无疑是一个值得持续关注的应用方向。
我们以前见过像AI这样如此高速的变革节奏吗?
Balasubramanian:以我超过25年的从业经验来看,没有。在过去20年里,我从未见过如此剧烈的变化。每周都有新客户涌现,都有针对新应用的新设计项目启动,我们一直在追赶这波浪潮。
Lawley:回顾历史,英特尔推出x86时,与飞兆半导体之间也曾上演过一场激烈竞争,那也是一个极具创造力的时代。但今天AI的影响范围远比当年的半导体竞赛广泛得多。所有人都知道它——我的孩子知道,我妻子知道,我父母也知道。
Chole:机器人技术和自主化将大幅拓展边界。我们将会看到PetaOPS级别的算力引擎。这场对话是从世界模型开始的,这非常有意思,因为这些模型必须在自主平台上运行,并且在视觉处理和Token吞吐方面都有相当高的算力需求。也许这就是我们一年后讨论的主要话题。
Woo:AI带来的变革速度,是现代半导体设计史上前所未有的。AI正在压缩整个技术栈的迭代周期,而硬件端所感受到的压力是最直接的。随着新能力不断涌现,需求被持续刷新,模型快速演进,一年前的设计假设可能已不再成立。这迫使我们采取系统性的整体设计方法,从一开始就将计算、内存、安全和I/O与软件需求统筹规划。这是我们思考未来芯片设计方式的根本性转变。
Naughton:这一切呈现出相当的指数级增长态势,而且与以往不同的是,这不再只是炒概念。我们正在见证真实的生产力提升、生活方式的改善,以及AI驱动的创新与发现。尽管这可能稍微偏离了边缘AI的话题,但我前面提到的那些进展确实在切实改善人们的生活。当然,这些进步也伴随着风险,我们必须对此保持清醒认知,采取审慎的步骤,确保在追求效率提升和生活质量增益的同时,充分评估和管控潜在风险。
Q&A
Q1:智能体AI和生成式AI有什么本质区别?
A:生成式AI是接收提示词、生成响应的模式;而智能体AI具有更强的自主性,能够规划任务、调用工具(如API、代码编译、测试运行等),并根据工具返回的反馈持续迭代。交互轮次由工具驱动而非人工介入,整体处理过程更复杂,Token消耗也不固定。
Q2:在边缘端部署智能体工作负载,有哪些关键技术要求?
A:边缘端智能体工作负载需要长期在后台稳定运行,因此对以下技术支持有较高要求:支持MoE(混合专家)架构以应对无批处理的边缘场景;支持KV缓存量化技术以节省带宽;支持前缀缓存等运行时内存管理机制;以及具备工具调用能力。总体来说,是将数据中心级推理能力以最小化资源占用迁移到边缘端。
Q3:芯片架构师在设计边缘AI芯片时,面临的最大挑战是什么?
A:最核心的挑战来自两方面:一是性能与功耗效率高度依赖内存系统设计和数据搬移,架构师必须对硅片面积的使用做出严格取舍;二是AI模型迭代速度极快,多模态、MoE、新浮点格式等新需求不断涌现,要求计算单元具备足够的灵活性和通用性,以适应未来不可预知的模型变化。