奇绩创业营校友「Mindverse」完成近 5000 万美元 A 轮融资,打造持续学习 Agent 模型


看准这件事很早,公司团队却不大。Mindverse 核心研发约 20 人,成员来自 DeepSeek、字节 Seed、xAI,也有清华、MIT、杜克的背景,累计发表过 200 多篇顶会论文。
两位创始人陈锴杰、Andrew 从 2018 年就一起休学创业,做过机器人、办过实验室,又各自回到学校,2023 年再次走到一起。Andrew 抓住了从 agent 训练到先进 agent model 的技术范式,首席科学家马骁腾带来了十年的强化学习积累,而陈锴杰则主要关注业务模型的应用和用户价值判断。
在和陈锴杰这场对话里,我们想弄清楚的是:如何用后训练的方式,训练出一个便宜、好用、还能持续成长的模型?
以下是极客公园和创始人陈锴杰的对话,经过整理:
模型变强的下半场,在后训练
极客公园:这一两年,行业的注意力肉眼可见地从预训练转向后训练。后训练这件事,是什么时候真正变重要的?
陈锴杰:今天预训练和后训练的边界已经越来越模糊,预训练阶段也会混入大量 Agent 轨迹数据。但大体上仍然可以这样区分:预训练主要利用互联网数据建立对世界的基本认知,后训练则把这些认知转化成具体能力。
真正的分水岭大概出现在 DeepSeek 发布 R1 的时候。那是行业第一次看到强化学习能够系统性地推动大模型能力提升,也是后训练地位快速上升的开始。在那之前,后训练消耗的算力可能只占预训练的 3% 到 5%,现在绝大部分模型能力的进步都发生在后训练阶段。
一个重要原因是,行业开始积累此前互联网中不存在的数据。Claude Code 这样的产品里大量真实任务产生的 Agent 轨迹开始被沉淀下来,成为推动后训练持续演进的重要基础。
极客公园:后训练真正解决的,到底是模型的什么?是能力,是对齐,还是让它「学会做事」?
陈锴杰:是在「对世界的基本认知」这个底子之上,去增强它在真实任务里的能力。预训练给了它知识和世界观,但一个知道很多事的人,不等于一个能把事做成的人——后训练补的就是后面这半截:怎么在真实任务里把已有的认知用起来、用对。
而且这件事还有一个更未来的形态,叫持续学习(continual learning)。我们想做的是有一种训练模型的方法,能让模型用很低的成本不断演化、进化,学习新的知识、做新的任务,也遗忘那些不需要的知识和任务,让效果以一种渐进的方式提升。它不是训练完就定型,而是一边在真实场景里运行、一边持续地更新自己。
极客公园:你们认定要靠训练去解决这件事,其实下手很早。2023 年那篇 FireAct 就提出「agent 能力来自训练、而不是 prompt」,当时还是个非共识。为什么你们敢这么早押?
陈锴杰:这个判断和我离开学校后的第二次创业经历有关。当时我们在做 AI 游戏,用的是 GPT-2、GPT-3 时代的模型。能力很有限,但已经需要构建一个会随着用户行为不断变化的 AI 世界,本质上是在搭建复杂工作流。
那两年我们很清楚地看到一个问题。单个步骤成功率达到 95%,看起来已经很高,但当十几个步骤串联在一起时,误差会不断累积,最终破坏整个体验。长程任务不可能只依赖 Prompt 拼接完成,能力最终必须通过训练获得。今天大家常说的 trajectory,本质上就是一条连续的思考与行动轨迹。
后来姚顺雨提出 ReAct,把思考和行动组织成一条连续轨迹。我们看到这件事的时候,其实非常有共鸣。也是从那个时候开始,我们越来越确信,Agent 能力最终会回到训练本身。Andrew 和他一起发完 FireAct 那篇论文之后,我们也决定沿着这条路线继续往前走,成立公司,把这件事做下去。
极客公园:这条路绕不开 LoRA。但大部分人对 LoRA 的印象还停在「给图片加个滤镜」。在你们这儿它显然不是这个角色,该怎么重新理解它,它和强化学习又是什么关系?
陈锴杰:我们选 LoRA,最初其实是个很现实的考虑,它是一个极致性价比的训练方法。你可以把它理解成一个自适应的适配器:它不去动整个模型,而是把模型里最关键的那部分参数提炼出来训练,用很少的参数就能拟合整个模型的训练效果。因为我们最早只有几十卡、一百卡的集群,受到这个限制我们必须把每一分算力的效率榨到极致。
但今天 LoRA 演变成了构建持续学习的技术底座,它负责让模型的能力能够不断地被承载、被更新。它和强化学习其实是分工的两件事,强化学习是后训练里最主要的方法,负责把模型的能力真正练出来。在万亿参数这个规模下,强化学习和 LoRA 的适配两件事情都很困难,但都绕不开。
极客公园:那你们研究真正的转折点是哪一刻?我们注意到一个挺微妙的细节,几乎在同一时间,硅谷的 Thinking Machines 也在做同一件事。
陈锴杰:转折在 2025 年 9 月前后。我们发现在足够大的 MoE 模型上用 LoRA 做强化学习,性能是没有损失的。一个轻量的低秩方法去更新模型,和把整个模型全参数更新一遍,效果一样。这意味着我们能用 1/10 的成本,拿到和全参数训练一模一样的结果。现在它从一个性能和效率的取舍变成了对效率的单调优化。
做出这个结果时我们第一反应是怀疑自己。直到 Thinking Machines 随后在 9 月 29 日他们发了《LoRA Without Regret》,结论跟我们完全一致。看到他们独立印证了同一件事,我们反而踏实了。
到去年 12 月底,我们完成了万亿参数的 LoRA 强化学习,和 Thinking Machines 同期发布。全球那时能做到的只有我们两家,今年加上 Fireworks(Cursor Composer 模型的合作伙伴)也就三家。
极客公园:你说 LoRA 是「构建持续学习的技术底座」。这句话具体怎么理解?为什么 LoRA 这层东西,会成为模型「持续学习」的关键元器件?
陈锴杰:它是基模上面的一个更小的层,比如我们最新要发的模型,就是基模加上面这个 LoRA 一层,LoRA 这层的参数量大概是基模的千分之五,有很多个的话会更大。因为这一层参数不多,所以它便宜、好训、可以扩展。
举个例子,假设我服务一个金融客户,先把他的股票、市场数据训成一个金融推理模型。过三个月,金融市场又发生很多事、股价也变了,这些新数据怎么办?OpenAI、Anthropic 要把这些再训进预训练里,是很贵、很难、动起来成本极大的一件事;但这个金融客户,因为 LoRA 本身够小,只要继续训这个 LoRA、把新数据再训进去就行。LoRA 的大小也不固定,可以做得很小很小,小到每个人有一个、薄薄的一片,用一个人一个月的数据去训,可能就是几十美金的量级;而最大的、能追平全参数训练效果的 LoRA,也不过几万、几十万美金。所以它有非常大的可调节空间:你企业数据少能训,数据多也能训,想要接近预训练级别的大提升、让它学会一门新的代码语言,也能训。薄、好训、可加、便宜,这就是 LoRA 在持续学习上的第一层意义,在单个 LoRA 上。
极客公园:如果不用任何术语,让一个普通人听明白,你们到底在做一件什么事?
陈锴杰:我们在一个足够强的大模型底座上,挂很多个「技能包」,让一个模型能同时变成成千上万个各有所长的模型,去服务不同的人、不同的企业、不同的场景。
这个底座就是 base model,提供通用的智能上限;那些"技能包"就是 LoRA,每一个承载一小块具体的东西,里面可以是某个用户的长期偏好、某个企业的业务经验、某类任务的打法。过去大家的默认做法是"一个模型服务所有人",所有人共用同一套参数;我们想做的是反过来,共享同一个聪明的底座,但每个人、每个场景头上都有一片属于自己的、还能持续长大的参数。我们把这套结构叫 mixture of LoRA。
极客公园:mixture of LoRA,这名字会让人立刻想到 MoE,大家熟悉的 mixture of experts。这两个「mixture」是一回事吗?
陈锴杰:有学习 MoE 的地方,但不一样。MoE 里单独一个 expert 是没法完成推理的,它更像是模型内部自己分出来的计算单元。但 mixture of LoRA 里,每一个 LoRA 都是独特的、可以单独调用、对应一块明确的能力。
举个例子,假设我要做金融任务,我可以一次性挂 10 个 LoRA,一个学股价、一个学财报、一个学风控……分头去学。哪天我又要加两个新任务,比如港股打新的技巧,我完全不用动前面那 10 个已经学好的,直接再加两个 LoRA 进去学就行,学完一挂,模型的能力就天然扩展了一块,旧的一点没受影响。这就是为什么我们说它是一个"天生适合持续学习"的结构。因为其所有的能力是一块块累加上去的,而不是每加一点新东西就得把整个模型重训一遍、还冒着把旧本事弄丢的风险。这也是 LoRA 的第二层意义,在 mixture of LoRA 的持续扩展上。
我们还在探索的、更远的可能,比如说让 LoRA 之间协商、合作。当我们有了 mixture of LoRA 这个架构,我们会关注不同的 LoRA 之间的协作,会不会因为模型的多样性带来更好的结果。
极客公园:这套结构落到一个真东西上,就是你们即将要发的模型?
陈锴杰:对我们很快会开源我们训练的模型,它天生就支持 mixture of LoRA,是一个 750B 参数的 Agent 模型,其中是 744B 的预训练 GLM 5.1 + 6B 的 LoRA。我们应该是除了智谱以外,第一个在 GLM 5.1 上完成强化学习后训练的团队。
在 GLM5.1 上面做 LoRA 强化学习是有实打实的工程门槛的,需要适配 DSA,DeepSeek Sparse Attention,还有 MTP,Multi Token Prediction。我们这个模型不是去追「什么都会」的通用基模,它是专门面向 agent 场景深度后训练出来的,主要服务于生成式 UI 的编码、生活中的聊天、长链路推理和工具调用。
极客公园:新模型你们定义成一个 Agent Model。这个词该怎么理解?大家在后训练上的投入,最终都是为了它吗?
陈锴杰:最新的前沿模型都是面向 agent 的模型。拿 Claude 举例:它出了 Claude Code 之后,模型训练就会用 Claude Code 的数据,这些数据和我们平常用豆包那样「问一句答一句」完全不同。在 Claude Code 里,你写一段代码是一个非常长的任务,中间有很多交互,是一条很长链路的数据。用这些数据训练之后,Claude 这个模型就越来越"agent native",越来越适应 agent 的架构,因为它本来就是用这些数据训出来的。所以模型和应用场景是相辅相成的,大家都在往这个方向演进,进度各不相同。
我们做的也是这件事,只不过场景放在生活上。Macaron 是我们的 agent harness,生活场景里同样有很多复杂的工具调用、代码执行,还有很多模糊的请求,用户自己也不知道想干嘛。我们会把这些串成一条连续的任务链路,让模型在这条链路里通过训练做得更好,去提升 agent 的表现。所以当我们说 agent model 时,指的就是:这个模型训出来,是为了在一个多轮 agent 环境里使用的,它专门为这个环境做了优化。它还是一个模型,但做了 agent 的训练。
我们很特别的地方在于,市面上几乎没有专门为 agent 工作流优化的模型。国内大批量的开源模型,基本还在追赶 GPT 和 Claude 最先进的那一代,所以大家的精力很多还在预训练上,怎么先赶上,可能还顾不上把 agent 这部分在后训练里做得特别好。
Claude 肯定在逐渐做,做得也非常好,但同时他们要管的课题多很多。我们是专门为 agent 训练模型,让它把 agent 任务做得更好,工具调用、记忆提取、什么时候该把任务交还给用户、什么时候继续多轮思考,这些它都会做得更好。
模型时代,时间就是最大的壁垒
模型记忆不应该是记事本,应该在参数里








