AI审稿员能替代人类评审吗?卡内基梅隆大学给出了答案

发布时间:2026/5/27 19:48:14

AI审稿员能替代人类评审吗?卡内基梅隆大学给出了答案 这项由卡内基梅隆大学、韩国科学技术院KAIST、NEC欧洲实验室等全球二十余所高校和研究机构联合开展的研究以预印本形式于2026年5月20日发布在arXiv平台编号为arXiv:2605.20668。研究团队横跨物理学、生物学、健康科学等多个领域汇聚了45位一线领域科学家历时数月完成了迄今为止规模最大的AI审稿质量评估研究。科学界每年产出的论文数量正在以前所未有的速度膨胀。在著名的NeurIPS、ICLR等顶级AI学术会议上投稿数量几乎每年都在翻倍而愿意认真审稿的专家数量却没有同步增长。与此同时《Nature》《Science》这样的顶级期刊从论文投递到最终发表平均要等上100到160天。这种审稿人荒已经成为整个学术界公认的危机。于是AI审稿员登场了。AAAI-26已经把AI审稿系统部署到所有22977篇主会论文的初审环节《NEJM AI》期刊也推出了快速通道流程引入AI辅助审稿。全球超过50%的研究人员已经在悄悄用AI工具帮自己写审稿意见有时甚至违反了所在期刊的规定。然而AI审稿员到底好不好用过去的研究评估方式相当粗糙把AI打的分和人类打的分做比较或者看AI的接受/拒绝建议与人类决定是否一致。这就好比评价一位餐厅评论家只看他最后给几颗星而完全不管他在评论里写了什么、说的对不对、重不重要。这种评估方式的根本缺陷在于两份审稿可以给出一模一样的分数但一份充满真知灼见另一份不过是废话连篇。这支研究团队决定换一种方式。他们把每一条审稿意见拆解成最小的独立批评单元——他们称之为审稿条目——然后请与论文研究方向高度匹配的领域专家逐条评判每个审稿条目是否正确、是否重要、是否有足够的证据支撑。这套方法就像是请专业食评家不只给餐厅打分而是对菜单上每道菜逐一品评这道菜的食材新不新鲜这道菜的烹饪手法对不对摆盘是否达到应有水准**一、评判的尺子是如何制造的**研究团队面临的第一个挑战是评判一条审稿意见用什么标准他们设计了一套三层递进的评价体系就像一道有三关的筛选流程。第一关问的是这条批评是否正确——也就是说审稿人指出的问题在论文里是否真实存在而不是审稿人看错了或者理解偏了第二关是在第一关通过的前提下追问这个问题重要吗——分成三档非常重要改了能让论文质量大幅提升、略有意义比如错别字或格式问题、无关紧要写在审稿里反而是噪音。第三关则在前两关都通过的情况下继续追问这条批评有没有拿出足够的证据——审稿人是否引用了论文原文、代码片段或者相关文献来支撑自己的论点这三关是环环相扣的只有先判定正确才评重要性只有判定至少有一定意义才评证据是否充分。这种设计避免了一个笼统分数掩盖所有细节的问题。为了验证这套标准的可靠性研究团队让27篇论文的审稿条目各被两位独立专家同时评判产生908个双重评判数据点。结果显示在是否正确和证据是否充分这两个维度上两位专家的一致性接近完美在是否重要这个维度上一致性处于中等水平——毕竟重不重要这件事本来就带有一定主观色彩专家之间也会有合理分歧。这项研究总共选取了82篇发表在《Nature》及其系列子刊主要是《Nature Communications》上的论文覆盖物理、生物、健康三大科学领域的27个细分方向。每篇论文都附有官方公开的人类审稿意见Nature系列期刊有透明审稿政策同时在Research Square平台上有可获取的投稿前版本——这意味着AI审稿员和人类审稿员看到的是同一份稿件。三位AI审稿员——GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro——各自被部署为能够访问论文全文、补充材料、图片和提交源代码的智能体每篇论文最多产出5条审稿条目并且被要求为每条批评提供详细的引用证据。**二、AI到底有多准又有多深刻**现在进入正题当研究团队把所有审稿条目都交给专家打分之后AI和人类各自表现如何先说正确率。人类审稿员中评分最高的那位研究团队称之为顶级人类审稿员平均正确率高达92.3%。也就是说他提出的批评中超过九成都确实命中了论文存在的真实问题。相比之下GPT-5.2的正确率是86.2%Claude Opus 4.5是83.7%Gemini 3.0 Pro是81.9%。三位AI都比顶级人类审稿员低了六到十个百分点差距不算小但也绝非不堪入目。然而故事在这里出现了戏剧性转折。当研究者把目光从正确率转向重要性时结果完全颠倒了。在那些被判定为正确的批评中AI提出的问题往往比人类更重要。顶级人类审稿员的平均重要性评分是1.39分满分2分而GPT-5.2达到了1.61分Claude Opus 4.5是1.53分Gemini 3.0 Pro是1.56分——三位AI全部显著超越了最优秀的人类审稿员。换句话说AI虽然偶尔会指错地方但它一旦指对了指出的往往是更要紧的问题。在证据充分性方面GPT-5.2和Claude Opus 4.5都略高于顶级人类审稿员分别达到97.1%和96.5%而Gemini 3.0 Pro89.5%与顶级人类审稿员92.2%相比没有统计意义上的显著差异。这三个维度单独看都有意义但真正让人信服的是研究团队设计的一个综合指标——完全优质fully positive一条审稿条目必须同时满足正确、重要、证据充分才算完全优质。这个指标模拟的是现实情况一条审稿意见就算写得正确但如果只是鸡毛蒜皮或者没有任何证据支撑作者读完也不知道该怎么改。在完全优质比率上顶级人类审稿员的平均值是48.2%最差人类审稿员是36.2%。GPT-5.2达到了60.0%以统计显著性超越了最优秀的人类审稿员p值为0.009这在统计学上意味着这个差距不是偶然。Claude Opus 4.5是53.1%Gemini 3.0 Pro是50.2%两者与顶级人类审稿员没有统计意义上的显著差异但都显著高于最差人类审稿员。为了进一步验证这些数字研究团队还请每位专家做了一个整体判断读完一篇论文的所有审稿意见后你认为哪位AI审稿员的整体质量达到或超过了最优秀的人类审稿员结果是专家们认为GPT-5.2在48.6%的论文里达到或超过了顶级人类审稿员而从另一个角度看所有三位AI在超过半数的论文里都超越了最差的人类审稿员。**三、AI审稿员究竟在看什么人类又在看什么**知道AI和人类各自的分数高低还不够更重要的问题是他们是否在关注同样的问题如果AI只是用不同的方式复述了人类已经说过的话那么把AI加入评审团本质上没有任何增益。研究团队为此设计了一套精细的相似度判断框架。他们把每条审稿条目拆解为三个成分目标论文哪个部分被批评、批评内容对这部分提出了什么问题、支撑证据用什么来支持这个批评。两条审稿条目只有在目标相同且批评内容也相同的情况下才被认定为相似——只是碰巧都批评了同一个图但一个说误差棒缺失另一个说配色方案不友好这不算相似。为了处理总计65704对交叉比较研究团队使用GPT-5.4作为自动判断工具并在164对人工标注样本上验证其准确性达到了92.7%的二元分类准确率。结果相当出人意料。两位不同的人类审稿员审同一篇论文他们提出的批评只有3.4%是相似的。换句话说人类审稿员彼此之间的观点几乎完全不重叠每个人都带来了独特的视角。这验证了一个古老的学术共识多人评审之所以有价值正是因为每个人看问题的角度不同。AI审稿员与人类审稿员之间的重叠率是5.1%——略高于人与人之间的3.4%但差距不大置信区间还有大量重叠。这意味着把一位人类审稿员替换成一位AI审稿员评审团整体的多样性损失非常有限。然而当三位AI审稿员被放在一起比较时情况就大不相同了。不同AI模型之间的重叠率高达20.9%——比人与人之间高出整整六倍。三位AI各自审同一篇论文很可能同时指出同一个问题只是措辞不同。这意味着如果一个评审团由三位AI组成那么它提供的视角多样性会远远不如三位人类。从覆盖率的角度看一位AI审稿员能覆盖另一位人类审稿员27.1%的审稿条目而另一位人类审稿员覆盖前者的比例是25.8%——两者几乎持平。但如果用三位AI同时审稿他们的批评在目标层面能覆盖三位人类83%的关注点但在具体批评内容层面只有46.3%。换句话说AI和人类常常在盯着同一个地方但对于那个地方存在什么问题双方的判断有很大分歧。更有意思的是AI单独发现、没有任何人类指出的问题占所有AI批评的26%。专家评估显示这26%中有81.8%是正确的有93.5%有充分证据支撑——这些问题并不是AI在胡说八道而是真实的、有据可查的问题只是人类审稿员没有注意到。不过与人类也指出的那些问题相比这些独家发现的重要性评分略低一些。**四、AI最擅长什么又最常在哪里翻车**研究团队从45位专家的自由评论中系统整理出了AI审稿员的16类典型失误和6类典型优势。这是本研究中最具实用价值的部分因为它直接回答了一个问题如果要改进AI审稿系统应该从哪里下手。最常见的失误研究团队将其称为不懂社区规范共出现54次。这类问题的模式是AI提出的批评在通用科研标准下完全合理但在该论文所属的特定细分领域里被批评的做法其实是约定俗成的惯例。举一个具体例子GPT-5.2在评审一篇粒子物理论文时批评说论文的分析过程没有记录足够的细节无法让外部研究者独立复现实验结果。这个批评听起来完全正确——开放科学的基本要求嘛。但该领域的专家解释说在CERN欧洲核子研究中心发表的论文里相关的校准数据和拟合参数是由实验协作组内部维护和使用的从来不会作为论文附件公开发布只有在特别重要的情况下才会例外。AI不了解这个惯例于是把一个正常的学科边界误读成了可重复性缺陷。第二类常见失误是论文明明写了AI说没有出现37次。这类错误的根源是AI的长上下文管理能力不足。AI审稿员在工作时需要同时处理论文正文、补充材料、图片说明、代码文件以及从网络检索到的参考文献当这些内容累积超过一定限度AI会对早期读过的内容进行压缩摘要导致遗忘。一个典型例子是Claude Opus 4.5在审一篇关于中国未来PM2.5浓度预测的论文时批评说论文没有对CMIP6模型的系统性低估偏差进行校正。但专家直接指出论文第489到496行明确描述了一套针对基准期观测数据的校准流程方程5AI完全漏读了。第三类失误是要求过于苛刻或超出范围出现46次。AI常常提出一些技术上正确但在现实中根本无法执行的修改要求。比如在评审一篇神经影像学研究时Claude Opus 4.5批评说论文使用来自健康人的分子图谱来解释患者的大脑异常存在方法论问题。专家表示这在逻辑上没错但在现实中精神疾病患者的全脑基因表达图谱根本不存在研究者不可能提供这样的数据——这个批评把不可能完成的任务当成了修改建议。第四类失误是三位AI重复说同样的话出现28次。当GPT-5.2、Claude Opus 4.5和Gemini 3.0 Pro同时审一篇关于机器学习分子间势的论文时三位AI不约而同地批评了同一个数据效率比较方案——只是GPT-5.2说这是训练测试集相关性问题Claude Opus 4.5说这是缺少学习曲线对比Gemini 3.0 Pro说这是缺少直接控制实验。三个批评的核心担忧完全一致只是包装不同。第五类失误是说了一大堆但没有任何可操作建议出现24次。有位专家对GPT-5.2的一篇评审评价说太冗长了这是一篇磁共振成像方法论的论文第一条评论不应该用六段篇幅谈生物效应。相比之下AI的优势集中在几个人类审稿员往往力不从心的地方。最突出的是检查提交的源代码共出现28次。这件事人类审稿员几乎不做原因很简单太费时间。但AI会打开代码仓库逐行检查有时能发现论文正文里完全看不出来的问题。一个堪称经典的案例Gemini 3.0 Pro在审一篇无线健康监测贴片的论文时发现论文声称的采样频率是800赫兹这是分析0到400赫兹频率信号的必要条件但提交的Arduino代码里有一行delay(500);——这意味着实际采样频率大约是每秒2次与800赫兹相差了整整400倍。更有意思的是代码注释里作者自己写道It appears that delay is needed in order not to clog the port也就是说数据无法通过无线方式高频传输那么论文里展示的高频频谱数据很可能是用有线方式采集的而论文却声称系统是无线的。专家表示人类审稿员不会去打开源代码看这些如果这段代码是正确的那这篇论文的核心数据就是错的。另一个代码检查的案例GPT-5.2在审一篇蛋白质相互作用预测论文时发现训练集评估中有一个变量明明叫best_valid_f1暗示应该在验证集上选择最优模型但实际代码里用的是测试集指标。这意味着模型选择过程直接接触了测试数据导致报告的性能指标可能存在数据泄露是严重的评估方法论问题。AI的另一个显著优势是统计和方法论严谨性出现45次。AI会系统性地检查独立性假设是否满足、验证集划分是否规范、不确定性报告是否完整——这些是人类审稿员在时间压力下经常跳过的审查点。还有一类优势是领域特定技术深度共出现27次说明AI并不只会泛泛而谈在某些细分领域它能识别出只有专家才会注意到的技术承诺。比如GPT-5.2在评审一篇关于多模光纤图像传输的论文时指出摘要里任意光学场传输这个表述有技术上的过度承诺——任意光学场在该领域意味着包含相位信息的复值场而论文实际只做到了振幅传输难度要低得多。专家对此表示高度认可。**五、自动评测基准台与AI审稿助手**因为每次做这样的人工评估都需要45位专家花费469小时研究团队想找到一种更省力的替代方法——用AI来模拟专家的判断。他们测试发现Claude-Opus-4.7在三个维度上的准确率分别为87.9%、56.7%、85.6%与人与人之间的一致性85.8%、59.9%、88.0%非常接近。这意味着用AI作为元审稿员对审稿意见进行评判的评判者在统计意义上接近于再请一位人类专家。基于这一发现研究团队构建了一个名为PEERREVIEW BENCH的自动化评测基准覆盖78篇论文。它的召回率衡量AI能找回多少人类专家认定的优质批评精准率衡量AI自己的批评中有多大比例是高质量的F1分数则是二者的综合。目前在这个基准上成绩最好的模型是Claude-Opus-4.5F1分数为50.89。GPT-5.4的精准率最高达到93.81%但召回率只有26.55%Gemini-3.0-Pro-Preview的召回率37.65%相对更高但精准率只有53.35%。即便是最好的模型F1也只有约50分——意味着与人类专家确定的标准相比仍然有相当大的提升空间。研究团队还基于这套系统开发并开源了CMU PAPER REVIEWER平台允许研究者在投稿前获取预审反馈。在PEERREVIEW BENCH上使用GPT-5.4且每篇最多生成15条审稿条目时该平台的F1分数达到58.64高于Stanford Agentic Reviewer的51.65和OpenAIReview的47.88。有一个值得单独拿出来说的有趣现象提高每篇论文的审稿条目上限从5条增加到15条并没有让AI胡乱堆砌数量——GPT-5.4在上限15条时平均只产出7.35条因为它在内部会筛选只有确信质量达标才会输出。更反直觉的是精准率反而从93.81%略升至95.46%召回率也从26.55%大幅提升到42.32%。**六、如果你是期刊编辑该怎么搭配审稿团队**最后研究团队利用这套数据做了一个对期刊和会议编辑颇具实用价值的模拟分析不同人机比例的评审团各有什么优劣他们模拟了四种配置三位人类、两位人类加一位AI、一位人类加两位AI、三位AI。衡量标准包括总审稿条目数、独特条目数不被其他审稿员重复的条目、非优质条目数编辑需要筛除的噪音、优质且独特条目数真正有价值的非冗余反馈以及作者读到一条有价值反馈前需要阅读的噪音数量。结论是清晰的。两人类加一AI在几乎所有指标上都与三人类持平甚至更好产出的有价值且不重复的条目数量相同每篇论文3.9条总条目数减少了17%非优质条目数减少了21%。换句话说加入一位AI并减少一位人类在质量不变的前提下降低了噪音——这是一个明显的帕累托改进。当人类审稿员进一步减少到只剩一位时有价值且独特的条目数量开始下降3.5条但统计上的置信区间与三人类仍有一定重叠差距尚在可接受范围内。然而三位AI组合则显示出明显的缺陷每篇论文只产出3.1个独特条目有价值且独特的条目平均只有1.8个与三人类组合的3.9个差距显著。这个崩塌的根源正是之前发现的AI之间重叠率过高的问题——三位AI审同一篇论文很可能在叫嚷同一个问题。如果在每种配置基础上加入一个元审稿员过滤器让AI在输出前自动筛除质量不达标的条目效果是效率提升但总量下降。过滤后的一人类加两AI组合产出的有价值且独特条目下降到2.1条但读到这些条目前需要跳过的噪音降至最低——每遇到一条有价值的批评只需要读不到两条无用批评。研究团队对此提出了三个针对不同优先级的推荐方案。如果期刊编辑的首要目标是维持现有审稿质量并减轻审稿人负担那么两位人类加一位AI是最自然的选择有价值反馈数量不变噪音减少审稿成本降低。如果首要目标是减少作者和编辑的筛选时间那么一位人类加两位AI再加元审稿员过滤能将每条有价值反馈前的噪音降低48%。如果编辑只需要一份简短的高可信批评清单用于初筛那么三位AI加元审稿员过滤的组合能让独特批评的命中率高达63.2%是三位人类的近两倍——代价是绝对数量大幅下降。说到底这项研究给出的结论是既令人意外又颇为合理的。当前最先进的AI审稿员在综合质量指标上已经与人类顶级审稿员不相上下GPT-5.2甚至在统计意义上超越了它。AI有真正的优势它会读代码会检查统计假设不会因为太忙就跳过方法论细节偶尔还能指出那26%的人类没有注意到的真实问题。但AI也有难以回避的短板它会把领域内的惯例当成缺陷会因为上下文太长而遗忘已经读过的内容三位AI审同一篇论文时往往在异口同声地说同一件事。这些弱点都不是无法解决的但在被解决之前它们是AI无法单独替代人类的根本原因。最恰当的定位是把AI审稿员理解为一位特别勤快的同事它愿意花时间检查代码愿意核查每一个统计方法但它对某些领域的潜规则一无所知有时还会记性不好三个AI放在一起容易互相抄作业。所以最合理的安排是让它加入团队但别让它独挑大梁。对这项研究感兴趣的读者可以通过arXiv编号2605.20668查询完整论文所有数据集和代码均已公开。QAQ1AI审稿员的完全优质比率是什么意思A这是研究团队设计的综合指标指一条审稿意见同时满足内容正确问题重要证据充分三个条件。GPT-5.2在这个指标上达到60%而人类最优秀审稿员是48.2%这说明AI虽然正确率略低但命中的批评往往更重要、更有支撑。Q2AI审稿员为什么经常重复说同样的问题A三位不同AI模型审同一篇论文时彼此之间的批评重叠率高达20.9%是人与人之间重叠率3.4%的六倍。这是因为AI模型都倾向于识别最显著的方法论问题训练方向相似导致它们撞车而人类专家因背景不同关注点各异。Q3PEERREVIEW BENCH和普通审稿评分有什么区别A普通评分直接比较AI和人类的分数或接受/拒绝决定而PEERREVIEW BENCH把每条审稿意见拆解为正确性重要性证据充分性三个维度逐条评判能识别出那些总分相似但内容差异悬殊的审稿意见是目前粒度最细的AI审稿评测框架之一。

相关新闻