ICLR 2026 | 零代码基础也能用AI做靠谱科研？上海团队用对抗式多智能体框架破解代码可靠生成难题

发布时间：2026-04-23来源：ScienceAI

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

作者 | 联合研究团队

编辑丨ScienceAI

在大语言模型的助推之下，从模拟仿真到数据分析，AI 正在帮助科研人员自动写代码。但现实是，领域科学家往往缺乏计算机背景，写出的提示词模糊不清、隐含大量专业假设；科学计算流程复杂，一个小错误就能引发连锁反应；更致命的是，大模型会产生「幻觉」—— 输出看起来合理，实则暗藏致命缺陷。

在多智能体协作中，一个环节的错误会被下游无条件接受，层层放大。现有的提示优化和自我修正技术面对这种微妙的错误模式往往束手无策。科学家们迫切需要可靠的代码，却困在「不会写好提示词」的尴尬境地。这一困境直接制约了 AI4S（AI for Science, 科学智能）研究的普惠化进程，大量关键科学问题因较高的技术门槛而无法被 AI 有效赋能。

为此，复旦大学、上海科学智能研究院（下称上智院）、上海创智学院的联合研究团队提出了一种贝叶斯对抗式多智能体框架，用一种全新的思路解决上述难题。该框架不依赖单一模型的自我修正能力，而是通过多角色分工与对抗博弈，让系统在持续的「攻防演练」中自发涌现出更高的代码质量。

论文标题：AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

论文地址：https://openreview.net/forum?id=Cug26Y0RlT

相关论文已被 ICLR 2026 接收。复旦大学及上海创智学院博士生曾子航、张家铨，为共同第一作者；复旦大学人工智能创新与产业研究院教授、上智院 AI 科学家陈曦，为本文通讯作者；上智院首席科学家、复旦大学特聘教授漆远，及复旦大学博士生李朋泽，为本文共同作者。

出题人 vs 答题人：对抗循环驱动的贝叶斯迭代机制

框架的核心是一个「出题人 vs 答题人」的对抗循环。任务管理器（TM）扮演「出题人」，负责设计具有挑战性的测试用例，不断探测当前代码的边界；方案生成器（SG）扮演「答题人」，根据测试反馈持续改进代码；评估器（Eval）则担任「裁判」，对双方表现进行客观打分。两者在对抗中共同进化，出题人越出越精，答题人越答越好。

更关键的是，框架引入了贝叶斯更新机制。每一次迭代后，系统会根据得分动态调整测试用例和代码方案的概率分布，自动聚焦最有价值的探索方向。通俗来讲就是，每一次迭代都让系统更聪明地选择最有价值的测试和代码组合，而不是盲目尝试。这种机制将「试错」转化为了「有指导的探索」—— 系统不会在已经验证无效的方向上浪费时间，而是像经验丰富的研究者一样，根据已有证据不断缩小搜索范围，逐步逼近最优解。

该框架的第一大贡献在于：提出了一种面向 AI4S 的低代码平台，结合贝叶斯对抗式递归代码生成机制，显著提升 AI4S 项目的代码生成可靠性。与传统多智能体系统完全依赖大模型做决策不同，本低代码平台采用非大模型的对抗性评分机制，从根本上降低了对基础模型智能水平的依赖。同时，框架让不懂编程的科学家只需用自然语言描述研究需求，系统即可辅助生成更高质量的科研代码。

小模型逆袭大模型：基准测试验证框架有效性

实验结果令人振奋：

在 SciCode 基准测试中，8B 模型使用该框架后性能相对提升 87.1%（子问题求解率从 13.2% 跃升至 24.7%）；
32B 开源模型配合该框架，在 SciCode 上达到 33.0% 的求解率，直接超越了 235B 模型的基线表现（30.6%）—— 小模型逆袭大模型；
在 ScienceAgentBench 上，框架达到 90.2% 的有效执行率，刷新当前最佳（SOTA）纪录。

这些数字背后反映的是一个关键趋势：通过合理的框架设计，开源小模型完全可以在特定科学任务上匹敌甚至超越商业大模型，这为科研团队降低算力成本提供了切实可行的路径。

更值得注意的是，框架对提示词质量展现出极强的鲁棒性。研究团队对比了「基础提示」和「专家精心编写提示」两种条件下的表现：基线模型的性能差距巨大，严重依赖提示词质量；而使用该框架后，这一差距被大幅压缩。即使用户只提供基础描述，框架的表现依然大幅超越专家提示词的基线模型。

这验证了框架的第二大贡献：显著提升编码智能体性能，且不受基础模型能力限制。未来，该框架有望扩展至更多科学计算场景，为 AI4S 生态提供更广泛且可靠的技术支撑。

展望：AI4S 普惠化的可行路径

在这种贝叶斯对抗式多智能体框架的助力之下，更多领域专家能够借助 AI 工具高效开展科研工作。比如，当一位海洋学家只需用自然语言描述研究问题，系统就能通过多轮对抗迭代生成更可靠的科研代码。随着这一范式的推广，更多领域的研究者能够专注于科学问题核心，而非陷入编程细节，从而加速 AI 与基础科学的深度融合。

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。