基因组AI模型谁更强?莫斯科独立AI研究院揭开“公平擂台“的面纱

发布时间:2026/6/13 14:33:59

基因组AI模型谁更强?莫斯科独立AI研究院揭开“公平擂台“的面纱 这项由莫斯科独立人工智能研究院与莫斯科钢铁合金学院联合开展的研究发表于2026年第43届国际机器学习大会ICML 2026会议在韩国首尔举办收录于PMLR第306卷。有兴趣深入了解的读者可以通过论文编号arXiv:2606.04525v2查询完整论文。基因组学简单说就是研究生物DNA密码的学科近年来迎来了一波人工智能的热潮。就像自然语言处理领域有GPT、BERT这样的大模型明星基因组学领域也冒出了几十个专门读懂DNA序列的AI模型。它们有的擅长预测基因是否会被激活有的擅长识别DNA上的化学修饰有的则专注于判断一段DNA来自哪个物种。然而问题来了——这些模型究竟谁更厉害这个看似简单的问题在2026年之前竟然没有一个可靠的答案。原因不是因为大家不想知道而是因为每个团队发布新模型时都只用自己挑选的几个测试题来展示成绩彼此之间的测试题根本对不上号。这就好比一场厨艺大赛张厨师只展示了他的红烧肉李厨师只展示了她的蛋糕王厨师只展示了他的炒青菜——你根本没办法说谁的厨艺最全面。更棘手的是不同团队用的评分标准也不一样就连同一道菜的做法也各有不同。于是谁是最强基因组AI这个问题变成了一团混沌每个团队都能在自己划定的圈子里宣称自己是冠军却没有一场真正公平的大比拼。正是为了解决这个问题研究团队构建了GENEB——一个专门用来公平比较基因组AI模型的标准化擂台。他们把40个主流基因组AI模型拉到同一个擂台上用统一的规则让每个模型在100道题目上一一作答这100道题覆盖了13个不同的生物学领域。这场史无前例的大比拼不仅给出了目前最全面的排名更揭示了一些让所有人都大跌眼镜的发现。一、为什么比较基因组AI这么难——混乱的武林江湖在正式介绍这场擂台赛之前有必要先理解这个领域有多混乱。研究团队画了一张图把目前所有主流基因组AI模型之间的比较关系用箭头连了起来——箭头代表这篇论文把那个模型当作对比基准。结果这张图看起来像一张四处断裂的蜘蛛网很多模型之间根本没有箭头相连形成了一个个孤立的小岛。以三个颇具代表性的模型为例DNA-GPT由斯坦福相关团队开发GENOMEOCEAN专注于环境宏基因组EVO则以处理极长DNA序列见长。这三个模型各自宣称在某些任务上表现出色但由于测试体系完全不同你根本无法直接比较它们。同一个模型在某篇论文里被捧为突破性进展在另一篇论文里却表现平平——这并不是因为模型本身有问题而是因为测试环境根本不一样。这种混乱带来的后果不仅是学术上的不便更会造成资源的严重浪费。如果一个生物制药公司想为自己的基因分析流程挑选一个AI模型面对几十个各说各好的选项根本无从下手。更危险的是一个在某个特定测试上表现亮眼的模型可能在实际应用中一塌糊涂但因为缺乏全面比较没有人能发现这个陷阱。研究团队用一个很形象的比喻来描述这个问题每个模型的发布论文就像一个演员只拍了自己最好看的定妆照但没有人知道他在其他场景下长什么样。GENEB的使命就是让所有人都站在同一个打光均匀的摄影棚里同时拍照让观众能真正比较他们的面貌。二、搭建公平擂台——GENEB是怎么设计的GENEB的核心设计理念可以用冻结、探针、统一六个字来概括。所谓冻结是指在测试过程中研究团队不允许模型针对每道题目进行专门训练。每个模型就像一个已经毕业的学生带着它在预训练阶段学到的所有知识来参加考试考试期间不能临时补课。这样做的好处是测试的是模型真正内化的能力而不是针对某道题目死记硬背的能力。所谓探针是指研究团队在每个冻结模型的输出上套了一个极其简单的分类器——本质上就是一条直线。这条直线的任务是根据模型提取的DNA特征来做出判断。如果模型确实学到了有用的DNA知识这条直线就能表现良好如果模型的学习是无效的再好的直线也救不了它。这种方法能干净地隔离出模型本身的表达能力排除任务特定训练带来的干扰。所谓统一是指所有40个模型都经历完全一样的测试流程同样的100道题、同样的评分标准、同样的随机种子为了确保结果可重复研究团队用了五个固定的随机种子取平均值甚至同样的数据处理方式。评分标准选用的是马修斯相关系数简称MCC。普通人可以把它理解成一把更公平的尺子——当考题里正确答案和错误答案的数量差距很大时普通准确率会产生误导而MCC能更真实地反映模型的判断能力。100道题目被分成了13个大类覆盖了基因组学中最重要的问题领域。这13类包括组蛋白修饰预测DNA被特定蛋白质打了标记之后基因表达会怎么变、启动子识别找到基因的开关位置、增强子预测找到让基因开关更灵敏的调节旋钮、DNA甲基化DNA上的一种化学修饰与细胞记忆相关、剪接位点检测基因在被翻译前需要剪掉不用的部分剪在哪里至关重要、长非编码RNA分类一类不编码蛋白质但有重要功能的RNA、小鼠增强子预测、转录因子结合预测、物种分类、调控元件预测、病毒与噬菌体检测、编码与非编码序列区分以及染色质可及性预测。此外研究团队还设计了三种测试模式全数据模式模型有足够多的标注样本可以参考、10样本模式每个类别只给10个标注样本模拟真实世界中标注数据稀缺的情况、1样本模式极端情况每个类别只有1个参考样本。这三种模式结合起来能全面考察模型在不同数据条件下的表现。三、40位选手登场——这些模型的背景各不相同这40个参赛模型来自全球各地的顶尖研究团队它们的出身千差万别就像来自不同门派的武林高手。从模型的读字方式即分词策略来看有的模型把DNA一个碱基一个碱基地读单核苷酸方式就像逐字阅读有的把相邻几个碱基合并成一个单位来读k-mer方式类似于阅读时按音节划分还有的借鉴了自然语言处理中的字节对编码技术让模型自己学习如何切分DNA序列。从模型的学习框架即架构来看有的是Transformer编码器擅长双向理解序列上下文有的是Transformer解码器擅长从左到右生成式地理解序列有的是状态空间模型Mamba设计上更擅长处理超长序列还有的是混合了多种机制的新型架构。从模型的读过什么书即预训练数据来看差异更是悬殊。有的只读了人类基因组有的读了几十种不同物种的基因组有的专门读了植物基因组有的读了微生物基因组甚至有一个读的全是原核生物细菌等的基因组。参赛模型的体量也从不到200万参数的迷你选手横跨到70亿参数的巨无霸足足覆盖了三个数量级的差距。这种多样性使得比较结果更有参考价值也为后续的深入分析提供了丰富的素材。值得一提的是研究团队最初调查了53个模型最终只有40个能参加比赛另外13个因为各种原因被排除有的因为代码有严重bug无法运行有的因为权重文件根本没有公开有的需要特殊的超级计算硬件还有一个ChatNT被排除是因为它只是另一个模型的外壳并不是独立的基础模型。这个排除名单本身就说明了当前基因组AI领域在可重复性上存在严重问题——四分之一的模型连能否运行都成问题。四、大比拼的惊人发现——块头大并不等于本事大比赛结果出来后最让人意外的发现是参数数量多并不能保证成绩好。在总体排名上模型的参数量和综合成绩之间确实存在正相关关系——统计学上用斯皮尔曼相关系数来衡量数值约为0.565属于中等强度的相关。换句话说更大的模型平均而言确实表现更好但这个规律有大量的例外。研究团队仔细统计后发现在36个同领域模型排除了那些专门训练在与测试任务完全不相关的数据上的模型中竟然有31次出现了小模型完胜大模型的情况且小的定义是至少小5倍。最戏剧性的例子是MUTBERT和EVO。MUTBERT是一个只有8600万参数的小模型专门在人类基因组数据上训练读取DNA的方式是逐个碱基EVO则是一个整整70亿参数的庞然大物体量是MUTBERT的81倍。然而在GENEB的综合测试中MUTBERT的成绩比EVO高出了整整0.231分以MCC为单位。这就好比一个在家乡厨师培训班结业的学徒在综合厨艺大赛上完胜了一个在米其林餐厅工作了二十年的大厨——原因并不是那个大厨不会做饭而是那位大厨从来只做法餐突然被要求做中国菜。EVO的问题正是如此它的预训练数据几乎全是原核生物细菌等微生物的基因组而GENEB的13个测试类别中有12个评估的是真核生物包括人类、植物、动物的基因组任务。把一个专门学法语的学生拉来考日语考砸了很正常。这个发现的深刻意义在于简单地用参数量多少来选择基因组AI模型是一个危险的策略。如果你在做的是人类基因组相关的研究一个800万参数但针对性训练的小模型可能远比一个700亿参数的通用大模型更有用。五、架构之争——注意力机制胜了但也有例外在所有模型架构的比较中研究团队特别关心一个问题以Transformer为代表的注意力机制架构和近年来被寄予厚望的状态空间模型Mamba架构架构究竟谁更强为了公平比较研究团队只对那些在相同数据集上训练、使用相同分词策略的模型进行对比。在这种受控条件下Transformer类模型展现出了全面的优势。具体来看OMNI-DNA-1BTransformer解码器架构10亿参数与eccDNAMambaMamba架构同样10亿参数相比在相同的多物种数据集和BPE分词下前者的综合得分高出后者整整0.149分。类似地GENOMEOCEAN-500MTransformer解码器也以0.131分的优势击败eccDNAMamba。但有一个非常值得关注的例外在染色质可及性预测这个细分领域Mamba架构的表现异常出色。eccDNAMamba在这个类别上的得分竟然比GENOMEOCEAN-500M高出了0.124分。另一个Mamba相关的混合架构模型JanusDNA-72-W在染色质可及性上的表现也比它自己的平均水平高出了整整0.200分——这说明某些Mamba架构可能天然对染色质可及性任务有独特的适应性。更令人玩味的是在Transformer内部编码器和解码器的优劣并非固定不变。在组蛋白修饰预测上Transformer解码器表现更好在TF结合预测上Transformer编码器占优而在启动子识别上编码器又胜了一筹。这告诉我们架构的选择必须结合具体任务没有放之四海而皆准的最优架构。六、分词方式的影响——没有绝对赢家分词方式即如何把连续的DNA碱基序列切分成模型可以处理的单元是另一个重要变量。研究团队通过12对受控对比专门研究了分词策略的影响。结论出人意料没有任何一种分词方式能在所有情况下碾压其他方式。BPE方式在多物种数据Transformer解码器的组合下平均比k-mer方式好0.020分但这个优势在不同模型对之间差异很大甚至有一对出现了BPE反而不如k-mer的情况。在Transformer编码器配合多物种数据的组合下BPE和k-mer几乎打平差距在0.006分以内。单核苷酸分词每个碱基单独处理在人类基因组数据Transformer编码器的组合下表现出色——MUTBERT单核苷酸比同等条件下的GENA-LMBPE高出0.033分比GROVERBPE高出0.038分。但在病毒/噬菌体检测任务上情况完全相反BPE分词的GROVER比单核苷酸的MUTBERT高出了0.209分。这个发现意味着分词方式的选择不能脱离架构和训练数据单独讨论。三者之间存在复杂的交互关系必须整体考量。七、预训练数据是关键——读什么书比读多少书更重要预训练数据对模型能力的影响是GENEB所有发现中最一致、最可靠的规律。研究团队通过精心设计的受控对比架构和分词完全相同只改变预训练数据类型发现多物种预训练数据平均而言比纯人类基因组数据好0.012分。虽然这个平均差距不大但在特定任务类别上差距极为显著。在染色质可及性预测上多物种预训练的优势体现在6对中的全部6对平均领先0.062分。在剪接位点检测上多物种预训练领先0.038分在物种分类上领先0.031分在小鼠增强子预测上领先0.023分在长非编码RNA分类上领先0.022分。然而在病毒/噬菌体检测任务上情况发生了逆转——人类基因组预训练的模型反而平均领先0.034分。研究团队推测这是因为在人类基因组数据中包含了大量与人类相关的病毒序列如内源性逆转录病毒这些数据恰好对病毒检测任务有帮助。更戏剧性的对比出现在真核多物种数据和微生物多物种数据之间。以相同架构和分词为条件在真核生物基因组上训练的模型综合成绩比专注于微生物的DNABERT-S高出约0.084分。差距最大的任务是剪接位点检测领先了整整0.222分——这完全符合生物学预期因为细菌根本没有剪接机制在细菌基因组上训练的模型当然无法理解真核生物的剪接过程。另一个重要发现是专注于真核生物基因而非整个基因组的预训练策略在受控比较中比广泛多物种预训练领先约0.063分在染色质可及性0.191、长非编码RNA分类0.142和小鼠增强子预测0.124上差距最为明显。当然这个结论只基于一对受控对比需要谨慎解读。八、少样本测试揭示的反常现象——排名大洗牌当测试条件从全数据降到10个样本或1个样本时排行榜发生了剧烈的震动。在全数据条件下40个模型的平均MCC得分为0.488。到了10样本条件这个数字降到0.253下降了48%。到1样本条件更是跌至0.106与全数据相比损失了78%之多。各个任务类别对数据稀缺的耐受程度差异极大。启动子识别任务在1样本条件下仍能保留38.8%的全数据性能物种分类保留了30.1%——这两类任务依赖的是序列组成的整体统计特征少数样本就能捕捉到关键信号。相比之下有三个类别在1样本条件下基本坍塌病毒/噬菌体检测损失了93.5%DNA甲基化预测损失了93.2%长非编码RNA分类损失了91.3%。更反常的发现是在全数据条件下成绩最好的那些大模型在少样本条件下反而表现出最大的绝对下滑。GENERATOR-EUKARYOTE-3B在全数据下综合得分为0.605但到10样本时直接掉到0.116下滑了0.489分LUCAONE下滑了0.461分NT-2.5B-MS下滑了0.456分。反过来那些在全数据下表现很差的小模型在少样本条件下的绝对下滑幅度反而很小。但研究团队明确指出这种稳定是假象——因为这些模型本来成绩就很低根本没有多少可以继续下跌的空间就像一个本来就在地板上的人摔跤时下跌的距离自然比站在高处的人少。这个发现对实际应用有重要意义如果你的研究场景是数据极度稀缺的全数据下的排行榜完全不能作为选模型的参考必须专门做少样本评估。研究团队发现在13个任务类别中有8个类别的最佳模型在从全数据换到10样本后发生了更换。九、硬骨头任务——这些问题当前AI还啃不动GENEB的100道题中有28道题的平均MCC分数低于0.35意味着目前所有模型在这些任务上的表现都离实用还差得很远。最难啃的硬骨头是4mC甲基化预测4mC是DNA上的一种特殊化学修饰在细菌中较常见。针对三种特定细菌的4mC预测任务平均得分分别只有0.061新型细菌G. subterraneus、0.103大肠杆菌和0.107另一种细菌G. pickeringii。即便是排行榜第一的大模型在这些任务上的得分也只有0.206到0.477之间——仍然不够好。植物长非编码RNA分类同样是重灾区番茄、大豆、小麦等植物的lncRNA分类任务平均得分都在0.221到0.238之间。更关键的是简单增大模型规模并不能解决这些硬骨头任务。以DNA甲基化为例模型规模和成绩之间的相关系数只有0.347低于基准水平而且没有任何一个参数量低于3亿的模型能在这个类别超过0.34分的得分线。研究团队判断这类任务的突破需要从根本上改进预训练数据的设计和模型的归纳偏置光靠堆砌参数是走不通的。十、高分散任务的启示——数据来源决定命运研究团队还专门分析了那些模型之间分歧最大的任务标准差超过0.12的13个任务把每个任务的前三名和后三名的模型特征汇总起来结果图案极为清晰。在前三名的39个席位中多物种预训练的模型占了20席真核基因预训练的模型占了12席两者合计占到了32席高达82%。与此同时纯人类基因组预训练的模型占据了后三名39个席位中的29席占比高达74%几乎全面聚集在底部。从架构角度看Transformer解码器占了前三名的18席Transformer编码器占了15席两者合计33席占比85%。而Mamba架构17席、混合Mamba-MoE架构7席和StripedHyena架构6席则主导了后三名。这个模式传递了一个明确信号在那些最能区分模型好坏的任务上决定成败的主要因素是预训练数据的覆盖范围和架构选择而不是模型有多大。十一、实用选模指南——不同任务应该选哪个模型基于所有的测试结果研究团队给出了针对不同任务的实用选模建议这部分是论文中最有实践价值的内容之一。对于预算有限、需要轻量级模型的场景MUTBERT8600万参数Transformer编码器单核苷酸分词人类基因组预训练是一个出色的选择。它在13个类别中的8个类别里位居参数量不超过1亿的模型第一综合得分达到0.529是所有小模型中最强的。对于组蛋白修饰预测GENOMEOCEAN-4B40亿参数综合得分0.545和GENOMEOCEAN-500M5亿参数得分0.537是领头羊且这个类别与模型规模的相关性最高是整个测试中扩展规律最稳定的一个类别。对于TF结合预测和调控元件预测CNN-Transformer混合架构的ENFORMER2.5亿参数专门在人鼠表观基因组谱上训练以0.698分稳居第一远超同类。它的参数量仅250M却击败了所有更大的模型。对于病毒/噬菌体检测GENOMEOCEAN-4B以0.697分领先GENOMEOCEAN-500M以0.657分紧随其后两者远超第三名。这个类别明显偏向于在元基因组数据包含大量病毒序列的环境样本上训练的模型。对于植物长非编码RNA分类LUCAONE20亿参数统一核酸蛋白质预训练以0.508分排名第一尽管它并非专门针对植物训练。最重要的是在这个任务上人类基因组预训练的模型普遍表现很差平均只有0.157分而植物专用模型能达到0.347分。对于DNA甲基化预测GENERATOR-EUKARYOTE-3B以0.440分排名第一但这个类别整体难度极高1样本条件下没有任何模型的得分能超过0.04——基本等同于随机猜测。对于染色质可及性预测GENERATOR-EUKARYOTE-3B0.728和OMNI-DNA-1B0.714名列前茅但值得一提的是即便是只有198万参数的JanusDNA-72-W也能达到0.599分在这个类别排名第14这在整个测试中是最惊人的以小胜大案例之一。十二、综合排行榜的不稳定性——一张表解决不了所有问题研究团队最终用热力图形式展示了所有40个模型在13个类别上的表现这张图是整篇论文中最有说服力的一张。每个格子代表一个模型在一个类别上的平均成绩颜色从红色差到绿色好过渡。这张图最直观的信息是没有任何一个模型能在所有类别上都呈现绿色。每个模型都有自己的强项和弱项排行榜的前几名也不例外。ENFORMER在调控元件预测和TF结合上是绿色的但在DNA甲基化和长非编码RNA上是红色的。GENOMEOCEAN系列在病毒/噬菌体任务上最亮眼但在某些调控任务上就显得普通。植物专用模型在长非编码RNA上是绿色的但在多数其他类别上表现平平。研究团队对比了综合得分的两种计算方式一种是对所有100道题取简单平均微平均另一种是先对13个类别各自取平均再取总平均宏平均。两种方式得出的模型排名高度一致斯皮尔曼相关系数高达0.988说明综合排行榜是稳定的。但在个别模型上两种算法给出了差异不小的分数——差异最大的往往是那些偏科严重的模型如EVO在宏平均下损失了0.044分因为它在12个真核类别上拖了后腿。这个发现对研究团队的核心论点形成了完美印证综合排行榜可以作为参考但绝不应该作为选择模型的唯一依据。真正理性的选择必须基于你关心的具体任务类别去查看该类别的专项成绩。说到底GENEB这个项目最大的贡献不只是给出了一个排名而是彻底改变了这个领域评估AI模型的方式。就像一个混乱已久的武林江湖终于有了一套公认的比武规则。归根结底更大的模型一定更好的直觉在基因组AI领域并不成立。一个在正确数据上训练的小模型往往能在实际任务中轻松击败一个在错误数据上训练的大模型。数据的覆盖范围、预训练对象与下游任务的生物学匹配程度才是决定模型实际价值的第一要素。而现实中让人遗憾的是相当一部分研究团队在发布新模型时既没有公开完整的代码也没有稳定可用的权重文件甚至连运行所需的硬件要求都语焉不详。GENEB调查的53个模型中有13个接近四分之一因为可重复性问题无法参与测试。这提醒我们在热情追逐更大更强的模型之外可重复性和开放性同样是基础科学应该坚守的底线。如果你正在从事基因组相关的研究或者对AI如何帮助人类读懂生命密码感兴趣强烈建议去看看这篇论文的完整附录那里有每个模型在每道题上的详细成绩是选模型时最可靠的参考手册。论文编号是arXiv:2606.04525v2研究团队表示GENEB的完整评测结果将在Hugging Face平台公开发布届时研究社区可以随时查阅和复现。QAQ1GENEB和其他基因组AI评测基准有什么区别AGENEB最核心的区别是覆盖范围和统一性。此前的基准如Nucleotide Transformer任务、GUE、BEND各自只测试少数几个模型且评测规则不统一。GENEB将40个模型同时放在100道题上用完全一样的流程测试是目前规模最大、最系统的基因组AI横向比较研究能真正揭示模型间的真实差异。Q2MUTBERT为什么能以8600万参数击败70亿参数的EVOA根本原因是预训练数据的领域错配。EVO几乎只在原核生物细菌等的基因组上训练而GENEB的12个核心类别评估的是真核生物任务。原核生物没有剪接机制、甲基化机制差异极大EVO学到的知识对这些任务帮助有限就像让只会法语的厨师去做中餐技艺再高也用不上。MUTBERT虽小但专注于人类基因组领域匹配度高得多。Q3少样本模式下基因组AI模型的排名为什么和全数据模式差这么多A少样本条件尤其是每类只有1个或10个样本下模型的排名洗牌非常剧烈13个类别中有8个的冠军发生了更换。主要原因是不同任务的信号特征可学习性差异很大启动子和物种分类依赖整体序列统计特征少数样本够用而DNA甲基化和病毒检测依赖精细的局部模式少量样本根本无法提供足够信息。因此如果你的实验场景数据量有限必须单独做少样本评测不能依赖全数据排行榜。

相关新闻