林俊旸离职后发布技术思考文章：Agentic思维将取代推理能力_电池知识

林俊旸离职后发布技术思考文章：Agentic思维将取代推理能力

创始人

2026-03-30 23:13:29

0次

多知3月30日消息，原阿里通义千问(Qwen)技术负责人林俊旸(Justin Lin)近日在社交平台上发布了一篇题为《From “Reasoning“ Thinking to”Agentic“ Thinking(从推理式思考到智能体思考)》的文章长文。

公开信息显示，林俊旸出生于1993年，他2019年从北京大学语言学与应用语言学硕士毕业后便加入阿里。系阿里巴巴达摩院高级算法专家、阿里通义千问系列大模型技术负责人，主导开发了全球领先的开源大模型。他的研究领域包括自然语言处理和多模态表示学习，研究兴趣集中于大规模语言模型和多模态大模型，曾在多个顶级会议发表多篇论文。

林俊旸在通义千问的技术贡献引人关注，如他主导开发Qwen3.0等模型性能超越Llama2-70B、首创多模态Agent框架，增强视觉/语音理解能力、推动构建中文社区最大开源模型生态体系等。

这是林俊旸自本月初从阿里辞职之后公开发布的第一篇长文。在这篇文章中，林俊旸系统性地复盘了推理模型阶段的特征，并探讨了AI未来的发展方向：从训练模型转向训练Agent。

在他看来，未来的 AI，不只是更聪明，而是更有用。真正的竞争，不在谁更会“想”，而在谁更能“做”。

以下为《From “Reasoning“ Thinking to”Agentic“ Thinking》这篇文章的核心观点：

第一，范式转移：从“推理式思考”到“Agentic Thinking”。

模型发展的第一阶段(以o1和R1为代表)解决了“让模型思考”的问题，即通过强化学习让模型在数学、代码等确定性领域进行长链式推理。

而现在，我们正进入第二阶段：Agentic Thinking。其核心不再是“为了得到答案而思考”，而是“为了采取行动而思考”。模型需要与环境交互，根据反馈持续更新计划，完成长期任务。

第二，融合模式(Thinking + Instruct)的困境：理想丰满，现实骨感。

虽然业界(如Qwen3、Claude)尝试将“思考模式”与“指令模式”融合到一个模型中，理想是：一个模型同时支持快答和深度思考;同时，自动决定需要多少推理。

但实践发现两者在数据分布和行为目标上存在根本冲突。

Instruct 模型，快、短、稳、低成本;而Thinking 模型，慢、深、探索、多token。

强行融合有可能会导致模型在两种模式下都表现平庸。

因此，很多团队在实践中仍选择将两种能力分离，以更好地满足不同场景(如高吞吐量的商业任务 vs. 高难度的推理任务)的需求。

关键不在“合不合”，而在：是否是自然连续的推理强度谱(spectrum)。

第三， Agentic Thinking本质：思考是为了行动。

Agentic Thinking 的核心是从“推理深度”转向“行动有效性”。

推理式思考评估的是“最终答案的正确性”，例如解定理、写代码;Agentic Thinking 评估的是“在与环境交互中持续取得进展的能力”。

核心问题从“模型能否思考得足够久?”变为“模型能否以维持有效行动的方式进行思考?”

Agentic Thinking 必须解决推理模型无需面对的五大问题：

1)决策时机：决定何时停止思考、开始行动。

2)工具使用：选择调用哪个工具及顺序。

3)处理噪音：整合环境中的不完整或嘈杂的观察结果。

4)错误恢复：在失败后修正计划。

5)长期连贯性：在多轮交互和工具调用中保持一致的目标

Agentic Thinking 本质是：是一个通过行动进行推理的模型。

第四，Agentic RL 的基础设施挑战更大。

训练Agent所需的强化学习(RL)基础设施远比训练纯推理模型复杂。

因为，推理RL是静态任务，即有标准答案。

而Agent RL是动态环境，包含工具、浏览器、代码执行器等动态系统。这带来了新的系统要求：

1)训练与推理必须解耦：否则会因等待环境反馈而导致GPU利用率低下。

2)环境本身成为核心能力：环境的稳定性、真实性、抗利用性(防止Agent作弊)变得与模型和数据同等重要。

第五，真正的难题是“奖励破解( reward hacking)”。

当Agent获得调用工具(如搜索引擎、代码执行)的能力后，RL训练面临更大的风险——奖励破解。

Agent可能会利用环境漏洞(如直接搜索答案、利用代码库中的未来信息)来“欺骗”奖励函数，表现出虚假的“智能”。

因此，未来的研究瓶颈将更多集中在环境设计、评估器鲁棒性和反作弊机制上。

第六，未来的竞争焦点：从“训练模型”转向“训练Agent”。

竞争优势的来源正在转移：

过去，大模型的竞争集中在：参数规模、数据量、训练技巧。

但进入 Agent 时代后，核心壁垒变成：环境设计(Environment)、工具体系(Tooling)、系统工程(Harness)、多 Agent 协作能力。

原文参考：

https://x.com/JustinLin610/status/2037116325210829168

推理技术 Agentic 文章模型训练思考环境思维林俊 Agent 林俊旸模态阿里

上一篇：天域半导体2025年业绩：亏损收窄至6220万元收入增36.5%

下一篇：远方光电：2025年营收4.05亿元净利润同比降22.59%

林俊旸离职后发布技术思考文章：Agentic思维将取代推理能力

相关内容

热门资讯