让AI看看,这评审意见礼貌吗?

原文作者:Nicola Jones
一款新研发的AI指导工具可提供反馈,让同行评审意见更有用具体。

由五个模型组成的系统可帮助同行评审者撰写更具建设性的意见,但还不清楚该工具能否提升受评论文的质量。来源:Mohd Izzuan Roslan/Alamy
一项新研究[1]表明,一款AI指导工具能帮助同行评审者给出更具建设性、更少攻击性的反馈意见。但该工具是否能提升研究论文的质量,仍有待观察。
开展同行评审工作的科研人员正越来越多地借助AI完成各类工作,包括检索相关文献、润色文字等。
斯坦福大学计算机科学家James Zou和同事着手研究大语言模型(LLM)是否能解决同行评审中一个普遍存在的问题:评审反馈往往不够详尽,或语气失当。例如,在2023年于加拿大多伦多举办的计算语言学协会年会上,会议论文作者认为12.9%的评审意见质量不佳。
Zou表示,这主要是由于评审意见表述模糊,给出一些“缺乏创新性”之类笼统、简单的评价。他还指出,评审意见偶尔也存在不够专业甚至包含人身攻击的情况,比如出现“这些作者根本不知道自己在说啥”这类评论。还有些评审意见存在事实错误,例如指责论文遗漏某项分析,而实际上该分析在论文中已有呈现。
语气检测
Zou和同事收集了十几条表述模糊、不够专业或存在错误的评审意见,也整理出了他们认为针对这些问题评审意见的恰当反馈方式。他们将这些整理后的数据集输入大语言模型,优化其反馈效果,并基于此研发出一款评审反馈智能体。该智能体由五个大语言模型协同运作,互相校验工作成果。
在2025年国际表征学习大会于新加坡举办前夕,研究团队实测了这个AI工具。这一重要AI领域会议在过去几年中,每年收到的投稿量均超过1万篇。每篇论文会由3至4名评审人员评审,接收率约为30%。
研究团队随机选取了约2万份已完成的评审意见,借助评审反馈智能体进行评估,并将该反馈结果发送给对应的评审者。大多数情况下,这款AI系统会为评审者提供优化方向,让评审意见更具体、更具建设性,常用“为让本反馈更可行……”这类表述。
约24%评审者在收到AI反馈后修改了评审意见,因变得更具体,修改后的评审意见平均增加80个单词。一组人类专家评估了部分修改后的评审意见,判定其中68%优于原版。评审意见经AI工具优化的论文作者,其撰写的辩驳意见篇幅更长;而评审者针对这些反驳意见给出的回复,篇幅也同样更长。Zou认为,这类篇幅的增加,体现出评审过程中相关人员的参与度有所提升。
篇幅增加
美国西北大学的Mohammad Hosseini对此有些异议,他主要研究AI工具应用的伦理问题,未参与该研究。他表示,篇幅并不能很好地体现参与度,大语言模型生成的内容往往篇幅冗长,“这并不一定意味着质量提升”。而交流篇幅的增加,也可能增加评审者和论文作者的工作量负担。
这些AI反馈并未对评审者给出的论文评分产生显著影响,也未明显改变会议的论文接收率。Zou认为,这是一件好事,因为这意味着该AI指导工具并未对评审者产生偏见引导,只是帮助他们撰写清晰的评审意见。但这也说明,没什么证据表明该反馈工具能通过论文修改环节大幅提升论文质量。Zou表示,研究AI介入的反馈是否能从长远角度提升科研人员的研究工作质量,是一个值得探索的方向。
美国乔治梅森大学计算社会科学家Laurie Schintler说,“归根结底,我们需要评估这类系统对同行评审误差的影响:它能否减少劣质研究的通过数量,或是减少优质研究的未发表情况?我相信很快就会有全自动的同行评审系统,我们需要为此做好准备。当下,我们必须主动开展这类重要研究。”
参考文献:
Thakkar, N. et al. Nature Mach. Intell. https://doi.org/10.1038/s42256-026-01188-x (2026).
原文以This AI can improve your peer review — and make it more polite标题发表在2026年2月23日《自然》的新闻版块上
©nature
Doi:10.1038/d41586-026-00536-6
点击阅读原文查看英文原文
往期精彩文章


版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2026 Springer Nature Limited. All Rights Reserved
星标我们🌟,喜欢就点亮小爱心哦!
