清华大学发布AutoSOTA:重新定义SOTA,让人类智慧重归创造之巅


编辑丨王多鱼
排版丨水成文
当我们审视当前人工智能(AI)研究的版图时,一个不可回避的痛点正横亘在所有科研人员面前——当你在实验室里为了那仅仅 1% 的性能提升而熬夜调参时,你是否曾经怀疑过,人类科学家最为宝贵的直觉与创造力,是不是正在被困在无止境的“增量式优化”之中 ?
在很长一段时间里,SOTA(State-of-the-art),也就是当前最佳水平的 AI 模型,一直被整个学术界和工业界视为衡量一项研究价值的“金标准” 。
每当有一篇新的学术论文宣布刷新了 SOTA,外界看到的往往只是那个闪耀的结果跃升。
然而,在这些光鲜亮丽的结果背后,真正支撑起一次又一次“当前最佳”的,其实往往并不是某一个瞬间爆发的灵感,而是此后持续数月甚至长达数年的高强度实验迭代、枯燥的参数调整以及繁重的工程优化 。
以我们熟知的 Transformer 架构为例,自 2017 年问世以来,全球范围内无数的科研人员围绕着这一架构投入了堪称海量的人力与算力资源 。
研究者们不断地提出新的变体、设计新的模块、不厌其烦地优化训练策略,经历了数千次的打磨,才最终将其在通用语言理解评测集 GLUE上 的性能,从最初的约 75% 艰难地提升到了 90% 以上 。

图1. Transformer架构在GLUE评测集上的性能爬升
问题恰恰就在这里,这些优化工作固然重要,但它们并不总是最值得由人类科学家去重点投入的那一部分。
如果这个时代最优秀的科研人才,被长期且深度地绑定在这些重复性的性能优化中,那么谁来负责投入那些更具原创性、也更具颠覆性的科学探索?
AutoSOTA,让 AI 科研自动化走向端到端闭环
正是在这样亟待破局的时代背景下,清华大学与北京中关村学院联合发布了一项具有里程碑意义的研究成果——AutoSOTA 。
目前,AutoSOTA 项目已发布预印本论文,论文题为:AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery.

AutoSOTA 的诞生,旨在面向端到端的 AI 科研自动化,它致力于通过强大的科研智能体,大幅度加速那些繁琐而高强度的实验迭代优化过程 。
不同于以往我们看到的那些仅仅针对单一实验环节进行局部加速的现有代码优化框架,AutoSOTA 将 AI 智能体的赋能边界进行了前所未有的延伸 。
它不仅涵盖了实验准备、实验执行等底层的繁琐任务,更触及了研究思路生成等顶层的构思环节,其终极目标是实现从当前 SOTA 到新 SOTA、从代码仓库到代码仓库的端到端 AI 科研自动化 。

图2. AutoSOTA研究问题框架
在架构设计上,AutoSOTA 采用了一种极其精妙的多智能体协作框架,这套框架精准地模拟了人类算法研究中的分工逻辑 。
这使得不同的科研智能体能够围绕着同一个核心目标,自动开展协同设计、实验执行、结果分析乃至于方案的不断迭代。
为了应对复杂多变的科研环境,AutoSOTA 还配备了极为完善的工具库与技能集,它不仅能够从容处理实验运行中可能出现的各种复杂状况,甚至能够独立完成文献调研、创新构思以及方案设计等高层次的科研任务,从而在顶层规划与底层执行之间形成了一个完美的闭环 。
这意味着,AutoSOTA 所追求的,绝不仅仅只是“把实验跑得更快”,而是真正在推动AI科研自动化,促使其从单点辅助迈向一个系统化、持续化、智能化的科研协作新纪元。

图3. AutoSOTA端到端AI科研自动化系统
一周时间,发现 105 个显著提升的 SOTA 模型
其实力也得到了硬核数据的验证。在为期一周的实验周期内,AutoSOTA 以前一年 AI 顶级会议的论文成果作为基础起点,成功发现了 105 个性能得到显著提升的全新 SOTA 模型 。

图4. AutoSOTA实验结果
更为惊人的是,在这些被发现的模型中,有超过 60% 的模型展现出了新颖的结构设计,并且平均性能提升接近了10%。
这组震撼的数据充分证明,AutoSOTA 绝非只是沿着人类既有的路径进行机械的盲目搜索,也绝没有停留在简单参数组合的低级穷举层面 。
它在有效优化性能的同时,展现出了一定程度的结构创新能力,它有能力在已有研究的基础之上,继续向未知的深处挖掘新的设计空间,从而发现那些兼具性能提升与结构新颖性的绝佳模型方案 。
归根结底,AutoSOTA 的非凡意义,已经远远超越了仅仅获得一批新的 SOTA 结果 。
它像一盏明灯,启发着整个人类科学家群体去重新审视科研创新的真正本质:SOTA 性能的刷新,真的就完全等同于重要的科学突破吗 ?
AutoSOTA 深刻地启示我们,我们需要思考如何将人类科学家最宝贵的注意力,从那些无休止的、重复性的实验迭代中重新释放出来,让科研的灵魂回归到更具颠覆性、更难被机器替代的原创性研究之上。
未来,一种极具可能的人智协作模式将是:由不知疲倦的科研智能体系统去承担大量重复性、密集型、长周期的优化过程,而人类科学家则可以全心全意地聚焦于提出核心问题、定义研究方向、识别时代机会与构想底层机制。
AutoSOTA 的意义,不止于“再提几分”
在这个意义上,AutoSOTA 更像是一种前所未有的“创造力放大器” 。它的使命并不是要替代科学家的原创性,而是要将人类的原创性从低效、重复的实验劳作中彻底解放出来。
对于科学研究而言,真正重要的事情,并不是让研究者永远停留在“把已有模型再推高一点”的枯燥循环里,而是要让他们拥有更多的时间和精力,去勇敢地面对那些尚未被清晰定义、尚未被合理解释、也尚未被系统探索的宏大问题。
今天,AutoSOTA 正在朝着这一伟大方向迈出至关重要的一步 。它不仅向世界展示了科研智能体在AI研究自动化领域所蕴含的巨大潜力,更让我们清晰地看到——当“性能优化”这项沉重无比的工作逐步被智能体接管之后,科学研究终于有机会真正回到它最珍贵的起点——由人类去提出最大胆的问题,去探索最未知的方向,去追求那些绝对不可替代的原创性突破 。
项目网站:
https://tsinghua-fib-lab.github.io/AutoSOTA/
论文链接:
https://arxiv.org/abs/2604.05550





点在看,传递你的品味




