Z Tech｜对话王子涵：离开DeepSeek，我人生的逆向思考

发布时间：2026-04-25来源：Z Potentials

01 导语

很多人知道王子涵，是从Twitter上开始的。

当时随着DeepSeek R1、V3的相继发布，西方技术社区第一次大规模感知到这家中国公司的存在，也由此将目光投向了站在一线的研究者，这位年轻研究者的推特账号突然涌入大量关注。他至今还记得，当时西方从业者对DeepSeek的震撼，就像目睹了一种“来自东方的神秘力量”，甚至还流传着不少有趣的传言，连梁老板的照片都被传错，至今没更正过来。

最初，他只是想做一件简单的事：把真实情况讲清楚：讲DeepSeek是如何做研究，团队的工作方式，和那些被忽略的技术细节，希望尽可能在信息失真之前，提供一个更接近一线的视角。巧合的是，昨天准备访谈内容时，遇上了DeepSeek V4的发布，王子涵早期在DeepSeek的亲身经历，也补充了更多关于这家神秘公司的更多一手信息。

但比起这段略带偶然的“走红”，更能定义王子涵的，是一条更早开始、也更稳定的技术路径——他对Agent system的持续探索。

他进入中国人民大学开启计算机研究的时间点，恰好处在一个“前范式”阶段：GPT-2已经验证了生成式架构的潜力，但学界与工业界的主流重心，仍然停留在以BERT为代表的非生成式范式之上——围绕分类、信息检索、表示学习与任务拆解不断深化。也正是从那个阶段起，他沿着一条清晰却不张扬的技术路径持续推进：从推荐系统与信息检索算法出发，延展至Berkeley的强化学习交流项目，以及与UIUC合作开展的MINT Agent benchmark研究；随后进入DeepSeek，围绕MoE模型中的专家Specialization（专业化）展开深入探索，并在此后的博士阶段，将问题进一步下探至Agent强化学习的底层机制，持续追问其能力边界与实现路径。

与许多从大模型能力出发进入这一领域的研究者不同，他的起点更朴素：一个AI系统，是否可以像人一样，在没有持续外部指导的情况下，自主学习、自主改进？

在这一问题之下，他引入马尔可夫决策过程MDP（Markov Decision Process ）来抽象Agent的决策闭环：状态（state）、动作（action）、转移（transition）与反馈（reward）共同构成一个自洽的系统。但他的兴趣并不止于传统强化学习对“策略优化”的关注，而是一个更具挑战性的主题——构建真正理解世界的Agent，在行动发生之前，就已经在内部完成了对未来的预演与模拟。

这也成为他后续所有工作的起点。作为直博二年级学生，他已在NeurIPS、ICLR 、CVPR、EMNLP等AI顶级会议上发表十余篇论文，google scholar citation 1600余次，并包揽NeurIPS LAW outstanding paper，ICCV SP4V best paper等荣誉。无论是最早探索的 Agentic scaling law，还是之后持续推进的RAGEN 1/2，VAGEN，MindCube等框架，核心都指向同一个问题：如何让Agent的决策，从“对输入的响应”，转变为“基于世界演化的判断”。

图为RAGEN 1，受访者提供

在这次对话中，我们试图回到这些问题的起点：从他最早的研究经历出发，穿过在DeepSeek的一线实践，再到他当下对Agent的系统性思考，去还原他个人的研究与探索是如何一步步展开的。以下为Z Potentials与王子涵的对话实录，Enjoy！

Z Highlights：

后来慢慢发现，很多看似高深的idea可能只是包装，甚至在复现实验时会发现根本跑不通。我开始具备辨别能力，能看出哪些工作外表华丽、公式复杂，实则并不成立。我产生了一种逆向思考：既然有些看上去高深的领域未必如此，那一些看似比较工程化的领域，会不会反而也没有那么简单，做出来一篇工作也需要很多的努力？
我当时特别感慨，怎么会有研究员密度这么高的公司。之前待过的地方，200个人里能有10个专职研究员就很不错了，但在DeepSeek，这200人里几乎多多少少都在做研究相关的事。就算不是专职研究员，每天也会在群里分享最新的大模型进展、大厂动态，连HR都会转发相关新闻，氛围特别不一样。
还有一件事让我印象很深，当时在DeepSeek有位做infra的前辈，我第一次提交代码时，前辈逐行帮我修改，每一行都能找到优化空间。比如通过in-place操作避免重新克隆张量。我觉得so amazing。
之前有人问我：到底什么才是Agent？我觉得，一个东西算不算 Agent，取决于它被放在什么样的Physical或Digital环境里。给它完全开放的计算机环境，它就是OpenClaw；给它受限计算机环境，它就是Claude Code 或 Codex；只给一个聊天界面，它就是GPT。环境的开放程度，决定了Agent从0到1的智能指数。
很多任务的设定都是给你一笔钱，把任务做得越漂亮越好。但更重要的是：一个真正具备资源适应能力的人或Agent，给他一万块能做出一万块的效果，给他一百万就能做出一百万的效果。我们希望打造的，就是这种高度自适应资源约束的 Agent。

02 从人大IR到伯克利RL：“没有人脉，就从Office Hour突围”

ZP：欢迎子涵，先从你早期的科研经历聊起吧。在人大读书初期，什么样的契机开始接触AI领域的？当时有哪些特别的故事吗？

王子涵：我接触AI比较早，2020年读本科，2021年初就开始正式做AI相关科研。这得益于人大的培养模式：大一上不分专业，所有理科生一起上课，选课自由度很高，学校也开了人工智能、统计学这类课程。那段时间我其实更偏向统计学，当时国内也普遍认为本科应该打好数理基础，多学数学和统计。

但我不想只走统计一条路，于是主动联系了人工智能学院的老师，进入课题组做研究。那时GPT-3已经有了，但对文本生成模型的研究远不如非生成式模型（如BERT等）多。我在组里主要做推荐系统和搜索算法，用比较基础的DPR、RAG做QA任务。坦白说那段科研很枯燥，没有生成能力，很多事情都要靠人工精细设计。比如做QA要从原文里抽span，做conditional QA还要抽条件特征，把condition和answer一一对应。虽然做法很传统、很手工，但我已经初步感受到了AI的意义——我们的AI模型在现实生活中的应用逐渐转向自然语言，相比于隔壁做SVM的传统结构化数据方向已经要广得多。

ZP：刚进入AI领域，你的选题或研究方向基本上是组里的导师安排吗？

王子涵：我选的导师在人大AI学院口碑好，学生去向也不错，最初更多是凭口碑和感觉选的。方向后来也有变化，最开始做的是信息检索(IR)。这个项目做完之后，萌生了出国的想法，大二申请了大三去Berkeley交换。

之后方向就换了好几次。回头看本科阶段，最有意思的还是那段IR的科研经历。我们有一篇投CIKM的工作，核心是：能不能用生成模型做信息检索？当时我们尝试让GPT逐个生成文档对应的token，每个文档对应一串token，做推荐或搜索时就让模型生成这串token，匹配到哪个文档就返回哪个。这里面的困难点有点类似早期GPT的幻觉——让它引用文献，它会编出不存在的条目。为了解决这个问题，我们提出了约束解码的方法，给模型限定一个文档库，强制它只能在库内的token序列中解码，确保生成结果精准指向库内文章。

ZP：在整个海外学术交流的过程中，你收获了什么？

王子涵：伯克利的经历让我变得非常独立。我认识的学长里只有一个去过伯克利，还是数学方向，和我完全不相关，没有任何经验可以参考。刚去时人生地不熟，甚至不觉得自己能找到教授做科研。

没有现成人脉，我就从上课找突破口。选课可以利用老师的office hour直接交流，也有机会跟着学习。我当时选了Sergey Levine的强化学习课，每次下课都主动去问问题。课程大作业让我印象很深，那时开始用OpenAI Gym，我觉得RL特别有意思，这也是后来我兜兜转转还是回到RL的原因。在我看来，RL和SFT的区别在于，它让模型具备自我进化的可能，就像AlphaGo到AlphaZero那样。课程大作业允许自主选题，我关注到OpenAI的VPT（Video Pre-training）工作，让模型通过观看视频学习动态模型，像人看游戏直播学操作一样。我在一个简化的2D类Minecraft环境里实现了一个低配版，效果还不错，那门课也拿到了满分。

当时还处在探索阶段，对这份满分作业挺满意的。但我也意识到不能只停留在课程层面，我看到有同学把课程作业改成论文并成功中稿，觉得很受启发。

我跟Sergey提出想做科研，他把我推荐给一位学长，但聊下来发现方向兴趣不太匹配。此后也尝试接触了一些其他组，Berkeley校内和校外的都有，有一些也认真做了一段时间，但有很长一段时间都没有真正做出来收尾的项目。

一开始我觉得科研是很神圣的事，要钻研宏大概念或高深想法。但后来慢慢发现，很多看似高深的idea可能只是包装，甚至在复现实验时会发现根本跑不通。我开始具备辨别能力，能看出哪些工作外表华丽、公式复杂，实则并不成立。我对科研也不再像大一大二那样抱有仰望心态，更多以观察者的视角去看待别人的工作。

这种心态一直持续到申请暑研。我产生了一种逆向思考：既然有些看上去高深的领域未必如此，那一些看似比较工程化的领域，会不会反而也没有那么简单，做出来一篇工作也需要很多的努力？

那时我找到了UIUC的导师季姮和Mentor星尧，他现在在All-Hands AI做Coding Agents创业。我们当时聊要不要一起做一个benchmark。很多人觉得benchmark简单、不够“性感”，但经过之前的思考，我意识到看似简单的事情背后也需要极强的严谨性，比如搭建分类体系、定义能力维度、编写大量严谨的test case。我那时才明白，做benchmark本身也不是一件容易的事。

我是2023年3月找到他的，当时他就提议，我们可以一起做Agent benchmark。

ZP：那个时候，关于Agent大家理解是什么样子？

王子涵：2022年底ChatGPT出现，很多人第一次意识到AI可以流畅对话，但很少有人进一步去想：AI除了聊天，是否能主动操控现实世界中的工具？它自己生成的token，能不能转化为真实行动，并在执行后读取环境反馈？当时大家的思维惯性非常强，之前做QA还普遍在用BERT抽特征，从这种惯性里跳出来，其实是一件很有挑战的事。

我们刚开始筹划做Agent benchmark时，正好Meta在2023年2月发表了Toolformer，算是当时最前沿的Agent相关工作之一。它定义了日历、计算器等5个工具，让Agent完成简单数学题之类的测试，虽然提出了基本的tool use思路，但并没有形成一套系统化的benchmark。

于是我们就在思考：既然大家都看到了Agent的潜力，下一步该怎么做？我们意识到，Agent在与世界交互的过程中，有两类核心资源至关重要：一类是工具（tools），另一类是人类。

当时ChatGPT也在推进工具能力，我们便设想了一种工具+人类反馈的Agent架构，和后来的TauBench思路比较接近：让Agent能够调用一系列工具，并结合人类反馈持续优化决策。这两类反馈的本质截然不同：

来自工具的反馈是可验证的客观事实，比如查询、计算结果，Agent应该直接当作真实依据使用；
来自人类的反馈则更嘈杂，比如用户会指责、表达不清，甚至需要Agent反问才能明确意图。

图为MINT benchmark框架，受访者提供

基于此，我们构建了一个融合tools + Agent + simulated user的基准测试。这项工作在暑研结束后完成，大概2023年9月左右发布。从那之后，我就开始系统地深入研究Agent相关方向。

ZP：当时的能力做Agent还是过于困难，模型的tool calling能力比较弱，也没有像样的推理，所以包括多Agent这类框架基本都很难落地。

王子涵：尤其当时没什么合适的任务能给Agent用，整体能力还支撑不了复杂场景。最后能做的基本也就是RAG和代码相关，让模型自己写代码、过验证器，再根据返回结果迭代。现在看，纯文本Agent最主流的场景也还是这两类：搜索Agent和代码Agent。

ZP：从2024年到现在，你观察到benchmark已经趋于饱和了吗？

王子涵：那个阶段其实条件很有限，当时连GPQA这种研究生级别的问答基准都还没有，主要用的还是HotpotQA、TheoremQA，以及代码类的HumanEval和MBPP。以现在的眼光看，当年这些数据集上的任务，如今的Agent基本都已经做得比较成熟了。这两年多时间，变化确实非常大。

03 王子涵亲历：200人的DeepSeek，代码一行一行改，HR都在分享模型进展细节

ZP：在这之后你大三结束进入DeepSeek，对你来说是一个怎样的开始？是什么样的故事让你进入DeepSeek？

王子涵：从UIUC暑研回来后，我就开始申请PhD。很幸运，我拿到了UIUC学姐曼玲在西北大学课题组的offer，之前和她聊过，彼此方向、风格都很合得来，之后就正式申请并确定了去向。

敲定PhD之后，我有一个类似gap的学期，那段时间心态很轻松，方向已经定了，不用再背负各种不确定性，于是就开心地投了简历。

当时我只投了两家公司：一家是DeepSeek，另一家是创业公司，两边都给了offer，最后我选择了DeepSeek。过程其实挺顺利的，我也没海投，就想着随缘试试，没中就大四下半学期好好玩，放松一下，不过最后面试一路比较顺利。

DeepSeek给我的感觉很不一样，他们不是在考八股面试，而是结合我的研究经历和公司的技术方向，问非常针对性的问题，后来我发现DeepSeek很多同事都是这种风格。这家公司会高度定制化面试，说明他们对每个候选人都很用心，至少会提前看你的简历、你的研究、你在做什么。这种感觉和我当时PhD面试很像：他们关心的是你这个人，希望你进来之后能落地一个具体的科研项目，而不是随便安排杂活、干完了事。正是这一点打动了我，于是我就加入了。

ZP：在那个阶段，DeepSeek还是一个不那么封闭的地方。现在基本上都不怎么招短期的intern。当时人多吗？规模如何？

王子涵：当时公司大概就200人。我当时特别感慨，怎么会有研究员密度这么高的公司。

之前待过的地方，200个人里能有10个专职研究员就很不错了，但在DeepSeek，这200人里几乎多多少少都在做研究相关的事。就算不是专职研究员，每天也会在群里分享最新的大模型进展、大厂动态，连HR都会转发相关新闻，氛围特别不一样。

ZP：你在DeepSeek里面主要是干了什么？有做自己的research，还是说主要是参与主流model的training和inference？

王子涵：都有做，主要是两项工作，一个是V2的开发，另外一个是expert specialization tuning。

V2属于新模型研发，公司员工都参与其中，大家当时也日常使用这个模型。我会重点观察模型的输出逻辑与流畅度，若出现问题，会进行归因并提出反馈。这部分工作更偏向工程方向，当时我更多是抱着学习的心态，毕竟公司里前辈众多，强者如云，学到就是赚到。

从V1到V2的迭代，是一个多想法碰撞的过程。外界看到的核心成果可能只有MLA架构和更精细的专家切分，但内部实际涉及架构优化、训练后调优、数据收集等多个环节。每天都能接触到各类创新思路，这是非常好的学习机会。通过与同事交流模型设计逻辑，我也积累了大量模型研发直觉，比如关注哪些指标、特定代码对模型性能的潜在影响等。

还有一件事让我印象很深，当时有位做infra的前辈，我第一次提交代码时，前辈逐行帮我修改，每一行都能找到优化空间。比如通过in-place操作避免重新克隆张量。我觉得so amazing。

我自己负责的项目更具探索性。当时公司正逐步迁移到MoE（混合专家模型），核心需求是解决MoE模型的专业化微调问题。当时行业内与微调相关的工作，基本都采用LoRA及其变种，核心是通过矩阵分解压缩参数，无需调整全部参数。这种方式虽能实现目标，但应用在MoE模型上时，我们发现了可优化空间。

MoE模型本身自带显性的专家结构，而LoRA之所以只需少量参数，核心是通过少量参数撬动模型中与任务相关的局部参数，本质也是在寻找对任务有效的参数分解。而MoE的专家结构，恰好提供了这种显性分解。我们在前期试点研究中发现，DeepSeek 坚持的细粒度MoE，其专家分化程度远优于当时市面上部分论文中采用的“八选一”专家结构——不同任务所激活的专家完全不同。当时，我产生了一个想法：既然微调的核心是更新参数系数，那能否直接定位到与任务最相关的专家，对其进行针对性微调？这一思路最终形成了我们的ESFT论文（发表在EMNLP 2024）。

其实当时我是围绕需求找解决方案，那时候就深刻体会到，只要有明确的需求，基于需求撰写论文会非常高效。之后我所有写得快的论文，都是遵循这个逻辑——发现一个未被关注的核心需求，然后针对性地落地解决方案，这和单纯花费大量时间打磨细节、雕琢形式的体验完全不同。

从这项工作本身来看，通过针对性微调相关专家实现参数更新，有两个核心优势。一是能节省显存资源，二是能降低MoE模型中不相关专家的噪音，提升训练的信噪比。如果强行让不相关的专家去拟合当前任务，会导致模型在其他任务上的性能出现断崖式下跌。而我们的方法，能在微调新任务的同时，让模型在原有任务上的性能几乎没有下降，核心就是没有干扰到不相关的专家，也避免了模型过拟合到单一任务。

ZP：所以MoE是DeepSeek很早以前定下来的的方向，他们是怎么样定出来的？毕竟当时除了MoE的混合专家架构，千问、GLM、Llama等早期模型都是稠密模型，只有GPT-4采用了MoE架构，DeepSeek为什么能早早判断出MoE是未来的发展方向？

王子涵：我认为核心是“实验出真知”，DeepSeek 内部的实验做得极其严谨。我在那里学到一个重要理念：仅仅自己相信某个方向是不够的，还要为相反的观点留出充分的辩论和验证空间。哪怕团队主观上已经非常认可某个结论，还是会做大量消融实验，假设反方观点成立，去验证其可行性、寻找潜在问题。

我自己做ESFT（专家专业化微调）相关论文时，就深刻体会到了这一点。哪怕我已经非常确定自己的方法是可行的，我的 Mentor 还是会不断追问我：如果这个方法不可行，问题会出在哪里？之后我做了大量消融实验，反复验证、确认方法的有效性后，才最终将其整理成论文发表。我们做核心实验的时间其实只有一个月，但做消融实验、严谨打磨论文的时间要长得多。

DeepSeek就是这样，对待每一个技术方向都极其严谨，会全面测试各种组件和特性，只有经过反复验证、确认切实可行，才会确定其方向。我觉得正是这种严谨的实验态度，让他们早早判断出MoE是未来的核心方向

ZP：在我的印象里，DeepSeek也是比较早提出细粒度MoE（fine-grained MoE）理念的，稀疏比达到1:32，比八选一、四选一的架构更加稀疏。这种设计可能属于不同的MoE架构思路，也可能是工程驱动下的选择。V2项目之后，你相关的MoE研究成果，最终有应用到模型的最终方案里吗？还是说目前仍停留在研究阶段？

王子涵：这就不得不提到训练后调优（post-training）的相关工作了，其实这里面涉及两个方向。第一个方向类似现在的Thinking Machine Labs，核心是基于大模型，为客户定制小型模型，以API的方式定制做训练优化和部署服务。当时OpenAI、字节等公司都已经上线了类似的微调功能——他们提供模型基座，用户无需了解底层架构，只需基于基座进行训练，就能得到定制化模型。但等到DeepSeek V3推出时，公司的优先级更侧重在提升模型能力方面，所以定制化方向的商业化这件事的优先级就被调低了。

图片由受访者提供

第二个方向更具探索性，核心不是让下游用户去定制、训练模型——虽然我们已经实现了微调新任务时不影响原有任务性能这一优势，但我们想进一步探索：能否将不同任务根据其性质，分配到不同的任务组，每个任务组内部的任务需要的能力较为相近，而针对每一类任务组，只微调其最偏好的专家。这样一来，在训练任何一个任务时，都能减缓“跷跷板效应”——比如训练任务a时，导致任务b的性能下降，进而需要反复训练所有任务。当时这个思路已经明确，但因为我在西北大学已经开学了，无法在 DeepSeek继续进行全职工作，就没能继续推进这项研究。

ZP：你有没有想过推迟入学半年，继续留在公司工作？比如等到V3项目结束。

王子涵：当时我确实考虑过留下或离开这两种选择。之所以最终选择去美国读博，很大一个原因是，美国曼玲老师课题组的研究方向，是我当时在国内完全接触不到的，包括VLA、机器人技术以及各类多模态相关内容。

我当时觉得多模态领域非常有吸引力，因为在国内，我能接触到的课题组里，很少有专注于多模态研究的。这其实是一个方向上的选择，我本身就很喜欢探索新领域——本科期间因为各种原因，我也换过很多研究方向，中间还做过LLM人格个性化相关的工作，虽然最终没有产出论文，但那段探索经历也让我收获很多。所以当时选择读博，核心还是出于对研究方向的考量。

ZP：没有记错的话，还有一个小插曲——R1和V3推出后，你在推特上受到了很高的关注。那段时间具体是什么情况？

王子涵：那段时间最深的体会是，西方业界人士了解到DeepSeek后，产生了很强的震撼感，我很难用恰当的语言形容，大概就像他们目睹了一种来自东方的神秘力量。当时还出现了很多我从未听过的传言，甚至到现在，还有不少人在推特上发布的梁老板照片都是错的，一直没有更正。

当时我有很多想分享的内容，比如想跟大家真实展现DeepSeek的工作状态，以及我感受到的公司情怀和核心价值。一开始还想着帮公司宣传一下，因为我加入时，公司的推特粉丝大概只有1万左右，但后来公司的影响力逐渐提升，完全不需要我再做宣传了。

其实我很小的时候就喜欢在B站发视频，当我对一件事有强烈表达欲时，往往能激发很多灵感，包括一些想法和有趣的梗——这些梗既能自己乐，也能让别人会心一笑，笑过之后还能引发对相关问题的思考。那段时间在推特上，我聊得最多的是开源相关的话题，虽然现在行业整体还是逐渐走向闭源，但当时能为开源做一点小小的抗争，那种感觉还是很有意义的。

ZP：DeepSeek给我的一个印象是，它在infra层面的能力很强，也比较强调infra与algorithm之间的协同。他们在写paper的时候，也会比较细致地展开算子和调度这些实现层面的内容。在这样的环境里，你有没有受到一些影响？

王子涵：最典型的例子就是我刚才提到的，我第一次提交代码时，我的导师逐行帮我修改，每一行都能找到优化空间。其实对比当时市面上其他MoE模型，哪怕是DeepSeek开源的V2版本代码，其推理部分也只比其他的模型有10到20行代码的改动，但这每一行都是精心设计的。即便不了解公司内部情况，单看开源版本，其质量也非常出色，计算效率远高于当时市面上的其他模型。

这其中就涉及到infra层面的细节优化，比如计算图如何计算梯度、梯度如何回传、怎样实现最优通信、如何通过减少张量创建来节省资源等。我觉得这种文化最核心的是一种资源预算意识——在资源有限的情况下，如何做出最优决策。其实我加入时，公司的资源是很充足的，200人配备1万张显卡，这是我本科时完全无法想象的，但后来也意识到，要训练一个超级大模型，1万张显卡依然显得不足，这也更凸显了infra优化、资源高效利用的重要性。

ZP：非常巧合的是，我们稿子发布的前一天，DeepSeek发布了V4，你怎么看这次的新发布？

王子涵：我对模型和技术路线等没有什么特别想说的，我觉得他们一直都走在正确的道路上。但我非常喜欢V4发布公告里的一句话：「不诱于誉，不恐于诽，率道而行，端然正己。」对任何一个研究者而言，坚持做自己觉得正确的事，保持前进的步伐平稳，踏实地去验证每一个假设，让外界噪音的影响下降到最小。这个方向，就是前进最快的方向！

04 Agent System：环境开放程度决定智能上限，而非算力或数据规模

ZP：你从很早以前就开始想做Agent system，最开始加入西北大学读PhD做的project，你想解决什么问题，进展怎么样？

王子涵：我做Agent相关项目的核心初心，是希望Agent能自主学习、无需人刻意教导。这受我成长经历影响，父母一直引导我自主学习，也让我更倾向于RL思路，我始终认为最终形态的RL会相对现有"生成体验+梯度下降 (experience + gradient descent)”模式的形态有较大改变，核心是让模型实现自主提升，也就是后来大家说的 self-evolving 。

我做的第一个相关研究是Agent缩放定律（Agentic scaling law），当时我们将Agent抽象为包含状态（state）和动作（action）的马尔可夫决策过程（MDP）。核心思路是，判断Agent是否理解世界，不能只看策略（给定状态s输出动作a），而要能对MDP任意环节“完形填空”，挖掘其世界建模能力——比如通过动作预测下一状态、通过状态与后续状态反推动作，这也是我们实验室目前推进工作的核心逻辑，比如VAGEN(Vision Agent, NeurIPS 2025) 本质就是这种完形填空思路的落地。

起初我尝试设计统一的完形填空框架但未成功，后来调整思路，决定循序渐进先做好策略。读博后，我发现Verl框架可应用于Agent构建，便做了简单的概念验证（PoC），由此诞生了RAGEN。第一版RAGEN未做过多工程优化，效率不及同期的SGlang，我也意识到工程优化的重要性，后续首要任务便是攻克这一难点。

RAGEN初版于去年1月27日发布，巧合的是，今年1月27日的RAGEN一周年纪念日，也是DeepMind的AlphaGo论文发布10周年。在过去的一年里，我经历了多次研究失败，也总结出了新的研究论点，目前正基于这套论点重新定位，开展新的探索，初代RAGEN也是我刚到西北大学第一个学期的核心工作。

图片由受访者提供

ZP：RAGEN的第二代主要是关注推理失败案例，以及强化学习失败模式（RL failure mode）相关的问题，它也从一个偏向infra定义的研究，转变为一篇基于观察的论文。在这篇论文中，你们主要的观察结果是什么？你觉得有哪些方法可以改进这种观察？

王子涵：我们梳理了去年W&B上记录的几千个实验，发现强化学习的不同领域中，多轮Agent强化学习（multi-turn Agentic RL）领域推进难度远大于推理领域。

在数学、代码等推理领域，模型reasoning长度会随训练增加，直观体现模型逐步学会深入思考；但在多轮Agent RL领域，我们测试20多个任务后，始终无法复现这一现象，反而模型推理长度持续下降。我们认为，长度只是表象，我们更需要深入理解这个长度背后，真正反映的模型推理能力和决策逻辑是什么。

ZP：导致这种现象的原因，是不是与你所定义的环境有关？你所在的框架或所在定义的环境是软件工程/代码（SWE），还是类似小游戏（Gym）？

王子涵：我们的实验环境更偏向分布外（OOD）场景，也即Agent不熟悉的场景。Code或者数学等任务一般在模型的预训练/后训练阶段都进行大量的训练，做Agent RL时推理长度下降现象更缓和，但这类规整任务仅占Agent实际应用场景的一部分。除此之外还有大量Agent实际使用场景，比如GUI Agent（即网页点击）、游戏（如Sokoban）等任务，这些都是Agent不熟悉的任务。

更具有挑战性的是，训练无法穷尽所有基准测试，测试时必然出现OOD任务。我们实验室在SPA这篇paper中，采取状态困惑度（State Perplexity）作为OOD环境的检测指标，发现推箱子任务困惑度接近200多，远高于WebShop、数学、代码等任务。

图片由受访者提供

我们的目标是将Agent部署到现实中，而现实中OOD场景最易出问题，需重点加强理解；且“推理长度下降”并非仅存在于OOD任务，分布内任务中，也可能因Agent推理噪声，导致任务偶然答对后推理链缩短。

ZP：这种“偶然答对后推理链变短”的现象，在不同类型任务中表现是否一致？

王子涵：差异非常明显。编程、数学任务有极强因果链，“过程对则结果对”；但推箱子、WebShop等Agent任务，可能步骤错误仍能完成任务，且这类任务状态转移多带随机性。我曾在Yutori实习接触GUI Agent业务，发现长程多模态Agent训练难度大，比如让Agent通过点击网页来订机票仍是未完全攻克的难题。我们观察到，模型性能提升的同时，推理却愈发脆弱，后续抽象出“模板坍缩”现象——模型倾向于输出不随prompt变化的“套话”。

那“套话”到底该如何定义？本质上，它指的是不随题目变化而变化的推理链——无论输入什么prompt，模型都倾向于重复相同的表述。意识到这一点后，我开始寻找理论框架来解释这种现象。于是我回归信息论的底层，去研读早期的论文，最终意识到：对于输入X和推理Z，推理的总多样性H(Z)，由两部分组成。第一部分是"同题多解”——给定输入X之后，推理链Z在单个输入的多样性，也即条件熵H(Z|X)；第二部分是"异题异解”——不同输入X之间，推理Z的分布是否不同，也即互信息I(X;Z)。H(Z)=H(Z|X)+I(X;Z)，是信息论发展几十年的成果，而从未有人尝试用其解释LLM Agent的推理坍塌现象。

图片由受访者提供

然而在实验中我们观察到，随着训练的深入，到后面推理与输入的互信息降到几乎快没有了。尽管我们以各种方式去提高reasoning的entropy，结果却适得其反：模型生成的内容在不同prompt之间的区分度越来越小。

ZP：针对这种问题，你们在RAGEN V1阶段做了哪些尝试？

王子涵：我们尝试过提示词过滤（prompt filtering）的方式：轨迹推演（rollout）完成后，系统会检查同一输入下不同样本间的奖励是否存在不一致；如果某个prompt对应的所有奖励都相同，我们就认为该prompt无法产生训练信号，类似考语文作文，写了5篇文章都是同一个分数，没有对比和进步的空间，就直接将其剔除。

这并非我们独创，工业界同期也产生了DAPO等类似的思路。DAPO看似很有前景，但在我们的Agent任务上却无法生效，核心是因为其只剔除不同采样间分数完全相同的prompt，而Agent任务奖励系统很多时候并非二元（0/1）奖励，奖励系统复杂且Agent采样有较强随机性，我们就调整了思路。

在RAGEN V1中，我们做了一个简单的启发式尝试，发现这可能与奖励方差（RV）相关——通过观察奖励方差，来评估任务的学习价值。如果奖励方差越大，说明Agent当前的策略在该任务上的奖励不稳定，我们就保留这类样本；反之，则剔除。V1版本固定保留排名前25%或50%的高方差样本；V2阶段进一步探究prompt不可区分的原因，发现训练样本的RV越低，推理过程与输入的互信息下降越快。

ZP：那到底是什么在影响互信息？

王子涵：我们探究后发现，影响互信息的核心是两种噪声。这两种噪声来源分别是：算法内部为维持稳定性引入的正则项，以及rollout过程本身的环境随机噪声。

一是来自正则项的噪声，在奖励方差（RV）极低时，优势函数近乎为零，梯度更新主要由正则项（KL散度或熵等）主导，会把模型推到一个输出单一稳定推理链的位置；二是来自随机环境的噪声，即便采用完全不同的推理，也有可能由于噪声导向相同的结果，这就使得模型认为不同的推理可能有相同的收益，还不如稳定输出一个简单的推理，最终推理链千篇一律。

ZP：infra层面的bug，也在你定义的噪声范畴内？

王子涵：去年暑假我研读了大语言模型RL中tokenization mismatch（分词不一致）和FP16vsBF16（训练推理精度转换导致的不一致）的近期论文，发现过去的一年中RL的底层框架中存在各种各样的infra问题，而即便是这样依然能成功训练，可见其信号强度足够强。

由于各种层面的噪声难以完全消除，我们将策略从“消除噪声”转为“控制信号”，剔除信号弱、无学习价值的部分，最终设计出SNR-aware filtering（信噪比感知过滤）自适应训练方案。其核心是轨迹推演中实时评估样本信噪比，仅针对强信号、有增量学习价值的样本更新参数，既避免噪声干扰，还能节省GPU资源和时间成本。具体而言，我们按奖励方差（RV）排序prompt，仿照Top-P算法保留累积贡献前列的样本，目前该方法已在多个合成/真实、单轮/多轮、视觉/文本模态等任务上实现性能提升。

图片由受访者提供

相比于DAPO等方案仅能剔除“无信号”的样本，我们基于RL信息论框架构建的SNR-aware filtering为工程师提供了一个旋钮（Top-P threshold），可以针对自己的任务调整“拒绝区间”。信号高的任务，就少拒绝一些样本，多学点东西；信号低的任务，就多拒绝一些样本，确保学到了高质量内容。针对控制旋钮本身，相比于Top-K Filtering 固定选取前K个prompt的样本，Top-P可以动态地在训练的不同阶段针对性采集信号更高的样本，训练效率更高，也更能确保样本的质量。

ZP：既然rollout占主要的compute，那么fliter之后还是会丢掉一些样本，是否意味着这种计算投入被白白浪费了？

王子涵：节省计算时间并非核心价值。针对“过滤是否需更多样本才能收敛”的疑问，我们做了对比实验：采样的样本数量相同时，开启过滤的模型表现显著优于未开启，证明低信噪比样本的更新不仅无益，还会产生干扰。

当时 RAGEN 正在投稿 NeurIPS，审稿人提出了很多质疑，再加上我在 Yutori 的实习 Agent RL 实验进度不如预期，每天回到工位上，看到同一个实验设置下，甚至会跑出几条不同的、近乎随机的结果曲线，那种深重的困惑感一度让我非常低落。值得庆幸的是，我们最终找到了一种方式，去解释 RL 训练中的不稳定性，也找到了让 RL 训练变得更可控的方法。

ZP：总结来看，prompt呈现出低方差（low variance）是有原因的：它可能只是碰巧有一个正确结果，也可能是任务太难导致模型始终猜不出来，还可能是任务太简单导致模型每次都能做对。本质上，这说明这个prompt可能不适合当前阶段的模型训练，所以把它整个过滤掉是比较正确的选择，强行通过后处理人为把它变成高方差（high variance），是没有实质意义的。那最后你们观察到，对于方差比较大的prompt，你觉得它是落在模型能力边界（boundary）上的一些案例吗？你怎样定义这些案例？

王子涵：确实如此，方差大的prompt恰好落在模型能力边界上，模型表现时好时坏，这类样本训练性价比最高，但这尚未完全揭示现实学习的本质。现实中，偶尔能做对、多数时候出错的任务最具学习价值，核心问题在于当前RL范式依赖梯度下降，导致学习过程扭曲，难以区分真正逻辑与侥幸结果。

最理想的学习状态是任务梯度干净、信噪比高。我们的研究也证明，奖励方差越大，梯度信号越不易被噪声掩埋。尽管如此，我对今年RL的范式转移充满期待，或许大家都会回归到提示词（prompt）的研究上，我自己最近也非常痴迷于此，觉得这是一种返璞归真。而且现在很多时候，做提示词优化的效果，甚至比做梯度下降还要好。

ZP：那回到RL，包括Agentic RL、数学领域的RL，你觉得这条scaling路线有没有可能暂停？现在整体还处在高速增长阶段吗？你觉得是scaling已经不够用、需要新范式来突破，还是scaling itself is enough？

王子涵：谈到scaling，我觉得关键是scale什么。现在行业普遍在scale关注算力，而有些人更看重数据。之前有人问我：到底什么才是Agent？我觉得，一个东西算不算Agent，取决于它被放在什么样的Physical或Digital环境里。给它完全开放的计算机环境，它就是OpenClaw；给它受限计算机环境，它就是Claude Code或Codex；只给一个聊天界面，它就是GPT。环境的开放程度，决定了Agent从0到1的智能指数。回到你的问题：Agent RL 的 scaling law，我觉得最核心的还是——你能给它提供什么样的环境。

05 Agent下一阶段的核心命题是资源自适应：给1万块做1万的事，给100万做100万的事

ZP：除了扩展环境（scaling environment）之外，模型本身你觉得还有哪些地方需要改进？比如长上下文、泛化能力这类。你觉得泛化是必然会实现的，还是本质上就做不到？

王子涵：我在和GPT对话的过程中发现，它现在模仿我的速度越来越快，这说明大家都很重视记忆能力。我觉得目前真正难突破的，还是那些贴近真实人类社会决策的任务。现实中缺乏RL训练环境和试错机会，能收集到少量离线数据已属不易。

当然我们也在尝试构建环境。我们和一些研究者合作，搭建贴近真实的场景。我们正在和耶鲁、MIT、NUS的团队一起合作做O2 AI公司(o2tech.ai)，开发能深度接入垂类企业环境的Agent harness，并基于此构建“资源自适应”的 Agent全栈系统（Infra / Benchmark / Service / Research）。我们基于电子制造与回收供应链场景构建Agent，其有能力直接和企业实时数据交互、理解企业资源（如库存，时间，资源，人力）、并据此指导应该如何做企业决策，如仓库何时满仓、何时需要清库存。这种基于真实业务逻辑的交互极具实用价值，我认为这是未来Agent发展绕不开的关键环节。

图片由受访者提供

Agent在人类社会中正在逐渐从“执行角色”过渡到“决策角色”，构建具有决策能力的Agent将会越来越重要。为什么未来一定要让Agent去管理这些复杂企业事务，而不是传统模型？首先，Agent可以做出更需要复杂上下文决策。人在判断决策是否合理时，不只是根据过往数据算出来一个收益，还要考虑政策变化、商业合作意向等大量非结构化变量，这是传统模型很难覆盖的，因此必须依靠Agent。

现实中没有太多试错机会，构建沙盒环境是必然选择。所以我们正在做资源管理型 Agent。我们的研究更聚焦于：Agent在不同预算约束下究竟应该如何表现。很多任务的设定都是给你一笔钱，把任务做得越漂亮越好。但更重要的是：一个真正具备资源适应能力的人或Agent，给他一万块能做出一万块的效果，给他一百万就能做出一百万的效果。我们希望打造的，就是这种高度自适应资源约束的Agent。现实中每个部门的初始资金、资源都不对等，且充满随机约束，如何让Agent在资源受限的情况下聪明地利用资源，是一个非常值得探讨、但目前几乎没有对应benchmark的问题，这也就是为什么像O2 AI这样的公司，利用企业真实数据构建的环境和Agent系统，会更符合人类决策实际需求。

一个更本质的挑战在于，模型生成token本身就是一种资源消耗。现在很多代码类Agent，甚至只是让它说一句“你好”，都可能消耗10k、20k的token，非常不合理。针对这一点，现在很多人在研究如何优化推理开销。

但我认为，目前研究还没触达更本质的命题：预算并不是花得越少越好，核心是投入产出比的高效匹配。真正的挑战是，给你多少钱就要做出多少钱的效果。现在大多数做效率、做预算约束的工作都存在偏差——很多思路都在追求 “越少越好”，而真正的方向应该是把现有资源高效转化为目标收益，这是完全不同，也更符合真实应用场景的优化思路。

ZP：未来你会倾向于留在学术界还是工业界？两者背后的逻辑你怎么看？

王子涵：我不管在哪都想做研究。做研究本身很快乐，是发现新问题、定义什么问题更重要的过程，所以无论在哪，我都会坚持做这件事。

ZP：如果让你排序当前LLM/Agent领域最重要的三个问题，你会选哪些？

王子涵：第一个是资源管理。如前所述，当我们要让Agent参与高影响力决策时，资源管理就是它的生存根基。在 Agent 的实际部署中，到任何一个新的环境（如企业ERP）里都需要学习这个环境的资源管理逻辑。

这就很自然延伸到第二个问题，就是world model。现在行业里对world model定义很多，我们实验室更关注Agent 自身的世界模型，也就是它能否自主判断做一件事会产生什么影响。目前主流RL算法还很难让 Agent 系统性地获得这种显性预见能力。预算本质上也是一种world model，你必须预判一个动作会带来多少开销、隐性成本。

“世界模型九宫格”梗图，王子涵制作

另一个让我非常兴奋的方向是Agent对价值估计的深度建模。O2 AI公司做垂类企业决策Agent，不仅需要通用的决策管理能力，更需凭借垂类知识精准评估电子元件残值：同一批物料在不同市场周期、库存状态、拆解路径和销售渠道下，对应的残值完全不同。这种垂类的价值估计能力甚至可能在未来可迁移到游戏、交易市场等场景。定价（pricing）是极佳切入点，因其可验证——以海量交易成交价为锚点，Agent学习预测成交价、提取判断逻辑。虽存在市场波动带来的噪声，但RL本身就是兼顾策略学习与去噪的过程，持续学习中积累的判断范式越多，agent 面对新场景的进化速度就越快。

ZP：这意味着要实现真正的实时竞技级AI，需要algorithm、infra跟整个I/O的co-design？

王子涵：的确，需要全栈层面的协同，是一个非常具有普遍挑战性的课题——这种实时应对能力是人有、但Agent没有的能力。

除此之外，continue learning也是今年另一个至关重要的命题。我们需要思考：为什么人学东西会越来越快，尤其是有了AI之后，学一个新领域也越来越快。

怎么样让Agent拥有这种越学越快的能力？其核心在于让Agent在长期处理多样化任务的过程中，把积累的经验内化并迁移到全新的任务中。以我自己为例，近期我在研究关于video generation的工作，尽管我之前只做过video understanding而非generation，但学习这个新领域的速度比以前快很多。这种速度提升，本质上就是一种continual learning能力的体现。要让Agent获得这种能力，需要一个多样的test bed，让它不停地去学。我现在的想法是，让 Agent真的去玩那些游戏，如果真的存在一个Agent能打通世界上所有游戏，在这个过程中，它一定学到了一些很meta的东西。

ZP：我刚意识到一个关键问题。现在最成熟的Agent环境，比如代码、数学，奖励可验证、靠思维链就能闭环；游戏类环境交互强、试错成本低。但一旦到企业决策、预算管理这类真实场景，训练环境极度稀缺，试错要付出真实金钱和代价，很像机器人领域的困境——真实数据太难拿，只能靠仿真，但仿真和现实又有差距。你觉得构建更高保真的模拟器，对高风险、高成本的Agent任务是否有价值？

王子涵：我更偏向从算法演进来看。人类本身就具备小样本学习能力，构建高真实度环境固然重要，但现实世界才是最完美的实验场。而且仿真环境也不是零成本，太便宜的仿真和真实世界差距巨大，机器人领域就是典型。这倒逼我们必须解决样本效率问题，现在的 RL 框架还有巨大提升空间。我之前用过thinking machineAPI，一开始给了几百刀额度，一轮都没跑完额度就全用完了。RL跑500步，一步就可能生成百万token，产生1-2刀的花费，成本极高。

未来一定会出现比现有RL高效成百上千倍的方法，让Agent能持续高效学习。我们离最终的那个Agent相比还有很远，现在做环境还是做算法？对于环境，其设计本质是一种权衡：低复杂度环境无法支撑Agent泛化到真实高成本场景，高复杂度环境需要更高的成本。因此，突破口一定在Agent学习速度的进化上，而核心就在于推理 —— 推理能让它越学越快，抓住不同任务之间更本质的共性。

备注：王子涵是 Northwestern Computer Science PhD，主要研究方向为 Agent RL。他于 2024 年本科毕业于人大高瓴 AI 学院，曾参与 DeepSeek-V2 研究，并拥有微软、NVIDIA 等研究经历。迄今，他已发表 20 余篇论文，相关成果发表于 ICLR、NeurIPS、EMNLP、CVPR 等会议，累计引用 1600 余次，并获得 ICCV 2025 SP4V Best Paper，NeurIPS 2025 LAW Outstanding Paper 等荣誉。他主导/参与开发了 RAGEN、VAGEN、MindCube 等多个 Agent 训练评测框架，累计获得 10k+ GitHub Stars。相关工作获得 Stanford HAI、MIT Tech Review、Forbes、Financial Times 等关注报道。个人技术传播账号在 X 拥有 20K+ followers，代表性线程累计获得 100 万+ 阅读。

请注意，此次访谈内容已经过精心编辑，并得到了王子涵的认可，我们也欢迎读者通过留言互动，分享您对本访谈的看法。Z Potentials将继续提供更多关于人工智能、全球化市场、机器人技术等领域的更多一线技术前沿探索者的访谈。我们诚邀对未来充满憧憬的您加入我们的社群，与我们共同分享、学习、成长。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。