林俊旸离职后发布技术思考文章:Agentic思维将取代推理能力
创始人
2026-03-30 23:13:29
0

多知3月30日消息,原阿里通义千问(Qwen)技术负责人林俊旸(Justin Lin)近日在社交平台上发布了一篇题为《From “Reasoning“ Thinking to”Agentic“ Thinking(从推理式思考到智能体思考)》的文章长文。

公开信息显示,林俊旸出生于1993年,他2019年从北京大学语言学与应用语言学硕士毕业后便加入阿里。系阿里巴巴达摩院高级算法专家、阿里通义千问系列大模型技术负责人,主导开发了全球领先的开源大模型。他的研究领域包括自然语言处理和多模态表示学习,研究兴趣集中于大规模语言模型和多模态大模型,曾在多个顶级会议发表多篇论文。

林俊旸在通义千问的技术贡献引人关注,如他主导开发Qwen3.0等模型性能超越Llama2-70B、首创多模态Agent框架,增强视觉/语音理解能力、推动构建中文社区最大开源模型生态体系等。

这是林俊旸自本月初从阿里辞职之后公开发布的第一篇长文。在这篇文章中,林俊旸系统性地复盘了推理模型阶段的特征,并探讨了AI未来的发展方向:从训练模型转向训练Agent。

在他看来,未来的 AI,不只是更聪明,而是更有用。真正的竞争,不在谁更会“想”,而在谁更能“做”。

以下为《From “Reasoning“ Thinking to”Agentic“ Thinking》这篇文章的核心观点:

第一,范式转移:从“推理式思考”到“Agentic Thinking”。

模型发展的第一阶段(以o1和R1为代表)解决了“让模型思考”的问题,即通过强化学习让模型在数学、代码等确定性领域进行长链式推理。

而现在,我们正进入第二阶段:Agentic Thinking。其核心不再是“为了得到答案而思考”,而是“为了采取行动而思考”。模型需要与环境交互,根据反馈持续更新计划,完成长期任务。

第二,融合模式(Thinking + Instruct)的困境:理想丰满,现实骨感。

虽然业界(如Qwen3、Claude)尝试将“思考模式”与“指令模式”融合到一个模型中,理想是: 一个模型同时支持快答和深度思考;同时,自动决定需要多少推理。

但实践发现两者在数据分布和行为目标上存在根本冲突。

Instruct 模型, 快、短、稳、低成本;而Thinking 模型,慢、深、探索、多token。

强行融合有可能会导致模型在两种模式下都表现平庸。

因此,很多团队在实践中仍选择将两种能力分离,以更好地满足不同场景(如高吞吐量的商业任务 vs. 高难度的推理任务)的需求。

关键不在“合不合”,而在:是否是自然连续的推理强度谱(spectrum)。

第三, Agentic Thinking本质:思考是为了行动。

Agentic Thinking 的核心是从“推理深度”转向“行动有效性”。

推理式思考评估的是“最终答案的正确性”,例如解定理、写代码;Agentic Thinking 评估的是“在与环境交互中持续取得进展的能力”。

核心问题从“模型能否思考得足够久?”变为“模型能否以维持有效行动的方式进行思考?”

Agentic Thinking 必须解决推理模型无需面对的五大问题:

1)决策时机:决定何时停止思考、开始行动。

2)工具使用:选择调用哪个工具及顺序。

3)处理噪音:整合环境中的不完整或嘈杂的观察结果。

4)错误恢复:在失败后修正计划。

5)长期连贯性:在多轮交互和工具调用中保持一致的目标

Agentic Thinking 本质是:是一个通过行动进行推理的模型。

第四,Agentic RL 的基础设施挑战更大。

训练Agent所需的强化学习(RL)基础设施远比训练纯推理模型复杂。

因为,推理RL是静态任务,即有标准答案。

而Agent RL是动态环境,包含工具、浏览器、代码执行器等动态系统。这带来了新的系统要求:

1)训练与推理必须解耦:否则会因等待环境反馈而导致GPU利用率低下。

2)环境本身成为核心能力:环境的稳定性、真实性、抗利用性(防止Agent作弊)变得与模型和数据同等重要。

第五,真正的难题是“奖励破解( reward hacking)”。

当Agent获得调用工具(如搜索引擎、代码执行)的能力后,RL训练面临更大的风险——奖励破解。

Agent可能会利用环境漏洞(如直接搜索答案、利用代码库中的未来信息)来“欺骗”奖励函数,表现出虚假的“智能”。

因此,未来的研究瓶颈将更多集中在环境设计、评估器鲁棒性和反作弊机制上。

第六,未来的竞争焦点:从“训练模型”转向“训练Agent”。

竞争优势的来源正在转移:

过去,大模型的竞争集中在:参数规模、数据量、训练技巧。

但进入 Agent 时代后,核心壁垒变成:环境设计(Environment)、工具体系(Tooling)、系统工程(Harness)、多 Agent 协作能力。

原文参考:

https://x.com/JustinLin610/status/2037116325210829168

相关内容

澜起科技2025年净利润同...
3月30日,澜起科技(688008.SH)公告,2025年实现营业...
2026-03-30 23:19:15
众龙头参与下一代开源芯片系...
近日,中国科学院公布RISC-V关键技术突破等重要成果,并启动下一...
2026-03-30 23:19:07
3月30日国证芯片(980...
证券之星消息,3月30日,国证芯片(980017)指数报收于123...
2026-03-30 23:19:00
卓胜微申请低噪声放大器芯片...
国家知识产权局信息显示,江苏卓胜微电子股份有限公司申请一项名为“低...
2026-03-30 23:18:54
科创板人工智能和芯片设计等...
人民财讯3月30日电,近日,包含2只科创板芯片设计主题ETF与1只...
2026-03-30 23:18:41
大胜达(603687)新增...
证券之星消息,根据市场公开信息整理,3月30日大胜达(603687...
2026-03-30 23:18:38
3月30日国证PCB(98...
证券之星消息,3月30日,国证PCB(980115)指数报收于49...
2026-03-30 23:18:35
迅捷兴:目前公司暂未涉及3...
每经AI快讯,有投资者在投资者互动平台提问:3.2T光模块是否有开...
2026-03-30 23:18:18

热门资讯

豪威科技申请分布式斜坡线性度补... 国家知识产权局信息显示,豪威科技股份有限公司申请一项名为“分布式斜坡线性度补偿电路”的专利,公开号C...
阳光电源申请一种滤波电路、功率... 国家知识产权局信息显示,阳光电源股份有限公司申请一项名为“一种滤波电路、功率变换器、充电桩和控制方法...
雅克科技(002409.SZ)... 格隆汇3月30日丨雅克科技(002409.SZ)公布,为进一步提升公司全资子公司浙江华飞电子基材有限...
菏泽行健高级中学第一届“无境杯... 3月29日下午,菏泽行健高级中学第一届“无境杯”电子机械设计大赛决赛顺利举行,12支经过层层选拔的优...
江苏帝宇电气申请双电源转换开关... 国家知识产权局信息显示,江苏帝宇电气有限公司申请一项名为“一种双电源转换开关的挂锁装置”的专利,公开...
环保监测用土壤氧化还原电位检测... 随着《土壤污染防治法》持续深化落实,土壤生态环境保护成为环保工作的重中之重,土壤氧化还原电位(ORP...
MCP1825 500mA低压... MCP1825/MCP1825S是一款500mA低压差(LDo)线性稳压器,可提供高电流和低输出电压...
超导概念板块3月30日涨2.9... 证券之星消息,3月30日超导概念板块较上一交易日上涨2.91%,永鼎股份领涨。当日上证指数报收于39...
第三代半导体板块3月30日涨0... 证券之星消息,3月30日第三代半导体板块较上一交易日上涨0.21%,锴威特领涨。当日上证指数报收于3...
半导体设备板块领涨市场,半导体... 3月30日,半导体板块内部表现分化,设备股集体走强,截至收盘,中证半导体材料设备主题指数上涨2.6%...