AutoScientists开源登场:哈佛带来能进行长期自主闭环科研的自组织智能体
将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯


编辑丨&
在科技发展的漫长历史中,「科学家」一直被视为人类智慧最坚固的堡垒。提出假说、设计实验、分析数据、撰写论文——这一连串高度依赖直觉、逻辑与创造力的复杂心智活动,曾被认为是硅基智能在短时间内绝无法染指的角色。
而在 2026 年 5 月 27 日,哈佛大学等在 arxiv 上发表了论文「AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation」,推出了专为科学发现量身定制的自主智能体框架 AutoScientists。这是一个能够真正实现「假说生成 - 实验规划 - 闭环验证 - 论文撰写」全流程、端到端自主运行的科研系统。

论文链接:https://arxiv.org/abs/2605.28655
去中心化
AutoScientists 本质上是一个自组织的 agent 团队,得益于其底层严密的多智能体(Multi-Agent)协同与复杂的认知闭环设计,该框架可在共享状态上行动,记录提案、实验、结果、失败以及当前的最优解。

图 1: 用于长期实验的自组织 agent 团队。
一旦某条方向停滞,agent 会重新组织,转向别的方向。共享状态里记录着当前最优、实验日志、讨论论坛、队列和 dead-end registry,团队之间还能共享成功和失败,避免重复探索。
基准测试
根据论文与官方在平台上发布的基准测试结果,AutoScientists 在化学、材料科学、生物医学以及复杂系统优化等多个学科的压力测试中,交出了一份令人惊叹的答卷。
团队首先把 AutoScientists 放到 BioML-Bench 上测试。这个基准覆盖 24 个端到端的生物医学机器学习任务,横跨生物医学影像、蛋白工程、单细胞组学和药物发现。结果是,AutoScientists 的平均排行百分位达到 74.4%,对比自体研究高 8.33 个百分点;其中提升最大的部分出现在药物发现任务上。

图 2:BioML-Bench 的测试结果。
在与 GPT nanochat 训练优化上的自动研究相比,AutoScientists 用更少的实验达到了相同的验证每字节比特数。
更难的是,AutoScientists 从一个已经优化过的当前解开始迭代。对于这个解,单 agent 自研究循环在 100 次实验中饱和,没有提出任何改进;而 AutoScientists 在 93 次实验中完成了了 7 次迭代,并仍有继续完善的空间。

图 3:GPT 训练优化。
针对现有方法的改进
最后,团队开始思考,AutoScientists 是否能改进一种现有的强大科学方法,而不是从零开始?
在开发过程中,AutoScientists 在单一实验 ACE2–Spike 结合上进行了优化。从 Kermut 开始,它发现了一种 ACE2-Spike 结合方法,将 Spearman ρ 从 0.747 提高到 0.840。所发现的方法不仅仅是超参数调整。
开发完成后,团队冻结了配方,并将其不加修改地应用于所有 217 个 ProteinGym 监督替换实验。平均 Spearman ρ 从 0.657 提高到 0.700。相对改进提升了 6.5%,并在监督替换基准上达到了新的最先进水平。

图 4:AutoScientists 在蛋白任务上的方法改进。
可长期协作的自主智能体
这是 AutoScientists 使长期实验成为集体的探索过程。研究者完全可以可以设置一个长期运行的实验,离开,然后兴奋地回来查看 agent 尝试了什么,什么失败了,什么改进了,以及它们一夜之间学到了什么。这感觉不像是在运行一个脚本,而更像是去探望一个研究团队。
虽然它的设计并不比单智能体基线更高效地调用 LLM,但它更善于让 agent 团队在设计空间内探索和协作,从而在固定的实验计算预算下改进实验搜索。 在固定的实验计算预算下,这种方法比现有方法表现更好。
AutoScientists 的网站和代码已经公开,开发团队也将其描述为一个开源、学术性质的项目。
相关链接:
https://x.com/AdaFang_/status/2060075719883891162
https://autoscientists.openscientist.ai/
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。
