AF2BIND问世:用AlphaFold2的「内部语言」预测超2万个小分子结合位点,加速药物发现
将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯


编辑丨&
在药物研发的漫长链条中,找到蛋白质上能与小分子药物结合的口袋(结合位点),是关键的起点。传统方法要么依赖已知结构的同源比对,要么从头训练神经网络。但前者受限于已知数据,后者则常因训练数据不足而泛化能力有限。
而现在,哈佛医学院、MIT 与达纳-法伯癌症研究所等提供了一个全新的思路:与其从头训练,不如从 AlphaFold2 这个已经「学富五车」的蛋白质结构预测模型中,直接提取它学会的关于蛋白质相互作用的「内部语言」。
这个名为 AF2BIND 的工具,仅用一个简单的逻辑回归模型,就实现了对小分子结合位点的高精度预测,并构建了一个包含上万个人类蛋白质组中全新结合位点的数据库,为药物发现提供了宝贵的资源。
相关研究以「AF2BIND: predicting small-molecule binding sites using the pair representation of AlphaFold2」为题,于 2026 年 3 月 11 日发布在《Nature Methods》。

论文链接:https://www.nature.com/articles/s41592-026-03011-2
AF2BIND
AlphaFold2(AF2)本是为了预测蛋白质的单链结构而训练的。但研究团队敏锐地意识到,AF2 在训练过程中,「见过」成千上万个包含小分子的蛋白质复合物结构。这些知识,很可能已经内化在其网络内部的对表示(pair representation)中。问题就在于,如何「唤醒」这部分沉睡的知识?
AF2BIND 的巧妙之处在于:它给 AF2 输入目标蛋白的结构(作为模板),同时在其序列末尾,像「钓鱼」一样接上20个「诱饵氨基酸」——每个标准氨基酸类型各一个,且彼此之间用很大的残基索引间隔隔开。

图 1:AF2BIND 利用 AlphaFold2 的特征预测靶蛋白中的小分子结合残基。
AF2 会尝试「完成折叠」,在这个过程中,诱饵氨基酸会与目标蛋白的潜在结合位点产生注意力交互。而 AF2BIND,则截取目标蛋白每个残基与这 20 个诱饵氨基酸之间的初始注意力,并将对表示拼接后,输入一个逻辑回归模型进行训练,目标是预测该残基是否是小分子结合位点。

图 2:AlphaFold2 的对表示被用作逻辑回归模型 AF2BIND 的输入,用于预测配体结合残基。
这种方法优雅地避开了从头训练深度网络所需的海量标注数据,直接利用了 AF2 强大的预训练知识。同时,逻辑回归模型的选择,也为后续的可解释性埋下了伏笔。
训练与成果
为了避免数据泄漏(即测试集与训练集存在同源蛋白),团队建立了一个极为严苛的拆分标准。们不仅按序列相似性(30% identity)聚类,还结合了结构相似性(Foldseek)、进化分类(ECOD)、结构域注释(CATH, PFAM)乃至结合口袋本身的形状相似性(TM-score)。
最终的测试集包括 67 个不同小分子结合蛋白的结构,这些结构与训练集或验证集中的任何蛋白质在结构、序列或口袋上均无相似性。
结果显示,仅用 AF2 的 pair 特征,AF2BIND 就达到了 66% 的结合残基恢复率,ROC-AUC 为 0.936。将多种特征结合,性能略有提升,但 AF2 无疑是信息最丰富的单一来源。

图 3:AF2 的配对表示在结合-残基预测方面最为有效。
验证算法性能后,研究团队将 AF2BIND 应用于一个更宏大的目标:整个人体蛋白组。他们利用 AlphaFold2 已预测的结构数据库,对所有蛋白进行系统分析。
结果显示:共有 20,302 个潜在结合位点,分布于 13,686 个蛋白质中。更重要的是,其中 15,755 个位点 在已有数据库中完全没有对应记录。换句话说,这些位点是此前几乎无法通过同源结构转移或传统方法识别的。

图 4:AF2BIND 预测了人类蛋白质组中未通过同源建模(AlphaFill)或 P2Rank 发现的可药物位点。
高质量的药物地图
AF2BIND 证明了预训练模型的「知识迁移」能力:一个为结构预测而训练的模型,其内部表示竟能如此有效地迁移到预测蛋白质-小分子相互作用这一看似正交的任务上。这为未来利用这些强大模型解决更广泛的生物医药问题(如配体设计、蛋白质设计)提供了范例。
AF2BIND 不仅指出位点在哪里,还通过诱饵分析,提供了关于「什么样的分子可能适合这里」的线索。
如论文作者所言,AF2BIND 的预测可以与能处理小分子的新一代结构预测工具(如AlphaFold3、Boltz-1)协同,其识别的位点可以作为「口袋条件」,引导这些工具进行更精准的共结构预测或分子对接。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。
