AutoScientists开源登场：哈佛带来能进行长期自主闭环科研的自组织智能体

发布时间：2026-06-01来源：ScienceAI

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑丨&

在科技发展的漫长历史中，「科学家」一直被视为人类智慧最坚固的堡垒。提出假说、设计实验、分析数据、撰写论文——这一连串高度依赖直觉、逻辑与创造力的复杂心智活动，曾被认为是硅基智能在短时间内绝无法染指的角色。

而在 2026 年 5 月 27 日，哈佛大学等在 arxiv 上发表了论文「AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation」，推出了专为科学发现量身定制的自主智能体框架 AutoScientists。这是一个能够真正实现「假说生成 - 实验规划 - 闭环验证 - 论文撰写」全流程、端到端自主运行的科研系统。

论文链接：https://arxiv.org/abs/2605.28655

去中心化

AutoScientists 本质上是一个自组织的 agent 团队，得益于其底层严密的多智能体（Multi-Agent）协同与复杂的认知闭环设计，该框架可在共享状态上行动，记录提案、实验、结果、失败以及当前的最优解。

图 1：用于长期实验的自组织 agent 团队。

一旦某条方向停滞，agent 会重新组织，转向别的方向。共享状态里记录着当前最优、实验日志、讨论论坛、队列和 dead-end registry，团队之间还能共享成功和失败，避免重复探索。

基准测试

根据论文与官方在平台上发布的基准测试结果，AutoScientists 在化学、材料科学、生物医学以及复杂系统优化等多个学科的压力测试中，交出了一份令人惊叹的答卷。

团队首先把 AutoScientists 放到 BioML-Bench 上测试。这个基准覆盖 24 个端到端的生物医学机器学习任务，横跨生物医学影像、蛋白工程、单细胞组学和药物发现。结果是，AutoScientists 的平均排行百分位达到 74.4%，对比自体研究高 8.33 个百分点；其中提升最大的部分出现在药物发现任务上。

图 2：BioML-Bench 的测试结果。

在与 GPT nanochat 训练优化上的自动研究相比，AutoScientists 用更少的实验达到了相同的验证每字节比特数。

更难的是，AutoScientists 从一个已经优化过的当前解开始迭代。对于这个解，单 agent 自研究循环在 100 次实验中饱和，没有提出任何改进；而 AutoScientists 在 93 次实验中完成了了 7 次迭代，并仍有继续完善的空间。

图 3：GPT 训练优化。

针对现有方法的改进

最后，团队开始思考，AutoScientists 是否能改进一种现有的强大科学方法，而不是从零开始？

在开发过程中，AutoScientists 在单一实验 ACE2–Spike 结合上进行了优化。从 Kermut 开始，它发现了一种 ACE2-Spike 结合方法，将 Spearman ρ 从 0.747 提高到 0.840。所发现的方法不仅仅是超参数调整。

开发完成后，团队冻结了配方，并将其不加修改地应用于所有 217 个 ProteinGym 监督替换实验。平均 Spearman ρ 从 0.657 提高到 0.700。相对改进提升了 6.5%，并在监督替换基准上达到了新的最先进水平。

图 4：AutoScientists 在蛋白任务上的方法改进。

可长期协作的自主智能体

这是 AutoScientists 使长期实验成为集体的探索过程。研究者完全可以可以设置一个长期运行的实验，离开，然后兴奋地回来查看 agent 尝试了什么，什么失败了，什么改进了，以及它们一夜之间学到了什么。这感觉不像是在运行一个脚本，而更像是去探望一个研究团队。

虽然它的设计并不比单智能体基线更高效地调用 LLM，但它更善于让 agent 团队在设计空间内探索和协作，从而在固定的实验计算预算下改进实验搜索。在固定的实验计算预算下，这种方法比现有方法表现更好。

AutoScientists 的网站和代码已经公开，开发团队也将其描述为一个开源、学术性质的项目。