AI语言模型揭示细菌免疫的「隐藏防御机制」——85%的抗噬菌体蛋白家族从未被描述
将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯


编辑丨&
为了抵御噬菌体入侵,细菌已经进化出了超过 250 种已实验验证的抗病毒防御系统。然而,这些很可能只是冰山一角。传统的方法——通过分析基因是否与已知防御系统共定位——虽然发现了许多新系统,但仍受限于同源性搜索和低丰度基因的遗漏。
法国巴斯德研究所的研究团队开发了三种基于蛋白序列和基因组上下文的大语言模型,实现了对抗噬菌体防御系统的大规模精准预测。他们的实验验证了 12 个全新的抗噬菌体系统,覆盖了从大肠杆菌到链霉菌的远缘细菌。
相关研究以「Protein and genomic language models uncover the unexplored diversity of bacterial immunity」为题,于 2026 年 4 月 2 日发布在《Science》。

论文链接:https://www.science.org/doi/10.1126/science.adv8275
多维度预测
在新方法提出之前,「guilt by association」方法确实推动了领域爆发,但它天然偏向已知家族,也容易把 integrase 等移动遗传元件相关基因一起带进来。
研究团队利用已知的防御系统数据库,对 3.2 万个完整细菌基因组进行了注释。在 1.23 亿个蛋白中,仅 0.4-0.65% 被识别为抗噬菌体系统的组成部分。但其中不少要被剔除为核心功能或移动元件功能。作者据此指出,仅靠传统关联法,很多真正的抗噬菌体蛋白都可能被漏掉。
为了捕捉更细微的基因组上下文信号,研究者训练了一个 ALBERT 模型(一种轻量级 BERT 变体)。他们将每个蛋白家族视为一个「单词」,将相邻基因片段视为「句子」,通过预测被掩盖的基因来学习细菌基因组的「语法」。

图 1:深度学习模型预测出大量抗噬菌体系统图谱。
由于全细菌泛基因组词汇量巨大(>800 万家族),他们先聚焦于放线菌门(Actinomycetota)——一个抗噬菌体防御研究较少的门,使用最常见的 52 万个蛋白家族作为词汇表。ALBERTDF 能够识别出那些与已知防御系统共享上下文模式但序列不相似的基因,从而发现全新的防御系统。但其词汇表固定,难以扩展到整个细菌泛基因组。

图 2:基于上下文的 Transformer 模型可识别链霉菌中的抗噬菌体系统。
上下文模型擅长找新型组织结构,但词表会限制它向全细菌泛基因组扩展。于是研究团队转向蛋白语言模型 ESM2。他们用已知防御蛋白(正样本)和非防御蛋白(负样本)对 ESM-2 进行微调,得到 ESMDF 分类器。
测试了不同规模的 ESM 模型(35M、150M、650M参数)后,650M 参数的 ESMDF 表现最佳,在保留的测试集上达到了高精度。
它能够识别出与已知防御蛋白序列相似度极低(甚至低于交叉验证过滤阈值)的蛋白,表明它可能学会了与抗噬菌体功能相关的更普遍的生化或进化特征。然而,单独使用 ESMDF 时,仍会漏掉那些序列高度分化但上下文特征明显的防御蛋白。
终极融合模型
前两种方法各有强项,也各有短板,所以作者最终做了融合模型 GeneCLR。它先用对比学习把同一个基因的「序列视图」和「上下文视图」对齐:序列视图来自预计算的 ESM-35M 表征,上下文视图则来自邻近基因及其相对位置。

图 3:GeneCLRDF 整合蛋白质和基因组背景用于抗噬菌体防御预测。
在测试集上,GeneCLRDF 达到了 99% 的精度和 92% 的召回率,显著优于单独的 ESMDF 或防御得分。
更重要的是,它能够识别出那些在训练时尚未被发现、后来才被报道的新防御系统——在后续增加的 110 个系统中,75% 被 GeneCLRDF 正确预测。在三个典型的基因组区域(防御岛、整合子、前噬菌体)中,GeneCLRDF 成功预测了大量未被 DefenseFinder 注释的防御基因。
检测细菌免疫的图谱
将 GeneCLRDF 应用于 32,798 个细菌基因组,研究者预测出 239 万个抗噬菌体蛋白(约占所有蛋白的1.5%,是传统估计的三倍),涉及约 61.6 万个蛋白家族。其中超过 85% 的蛋白家族从未被 DefenseFinder 或任何现有数据库注释过。
通过深度学习模型,该团队系统性地描绘了细菌抗噬菌体防御的庞大「暗物质」图谱。它表明,大多数细菌免疫的分子多样性尚未被表征。团队已经把这套 atlas 做成了可交互资源,并更新了 DefenseFinder 网站,供后续实验跟进。对于细菌免疫研究来说,这更像是一次边界重绘,而不是一次简单的补注。
相关链接:https://phys.org/news/2026-04-ai-uncovers-hidden-immune-defenses.html
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。
