Science：AI革新蛋白质工程，开始重编程生命

发布时间：2026-04-12来源：生物世界

撰文丨王聪

编辑丨王多鱼

排版丨水成文

蛋白质是生命世界里的“万能工具”。从消化食物、抵抗病毒，到传递信号、构成身体，几乎每一个生命过程都由蛋白质驱动。如果能像工程师一样，随心所欲地设计或改造蛋白质，我们就能创造出全新的药物、更高效的疫苗、能吸收更多二氧化碳的植物，甚至是生物合成的环保材料。几乎没有哪个科学领域比蛋白质工程具有更广泛的社会影响潜力。

自然演化在长达数十亿年的时间里缓慢塑造了生命的蛋白质，但蛋白质工程的任务是在极其压缩的时间尺度上——几年内，甚至借助人工智能（AI）的帮助，可能在几天内——创造出具有特定性质的蛋白质，这显然并不容易。

传统的蛋白质工程主要有两条路径：“定向进化”（directed evolution，DE）和“计算蛋白质设计”（computational protein design，CPD）。前者获得了 2018 年诺贝尔奖，它就像“人工加速的自然选择”，通过反复随机突变和筛选，在实验室里“养”出好用的蛋白，但过程缓慢、昂贵，且离不开一个不错的起始蛋白。而后者获得了 2024 年诺贝尔奖，它则试图用计算机模拟和物理定律，从头“计算”出理想的蛋白质结构，虽然搜索速度快，但依赖的理论模型太过简化，难以模拟复杂的生物化学反应。

这两条路径真正的挑战在于，蛋白质的可能性实在太多了。每种蛋白质通常由 20 种氨基酸组成，因此，一个仅由 100 个氨基酸组成的小型蛋白质，其可能的序列数量就高达 20¹⁰⁰种，这已远超宇宙中的原子总数。在这样一片浩瀚的、未知的海洋里，如何精准、高效地找到那条“能完成特定任务”的稀有序列？

近年来，人工智能（AI）通过实现对具有所需特性的蛋白质在高维序列空间中的更高效搜索，进一步推动了蛋白质工程的发展。AI 正在成为这场寻宝之旅的终极“导航系统”和“探测雷达”，它不仅能绘制地图，还能指明航线。

近日，国际顶尖学术期刊 Science 上发表了题为：How artificial intelligence is reengineering protein engineering 的综述论文，该论文系统阐述了 AI 如何从根本上改变了蛋白质工程这一领域。

AI 的“炼丹炉”：条件生成模型

当有一本记载了自然界所有已知蛋白质的“天书”（一个通用 AI 模型），它描述了蛋白质序列的普遍规律。现在，你想从这本书里，“炼”出一种新的蛋白酶，它需要满足几个特定条件：在 80°C 高温下依然稳定，并且能高效催化某类化学反应。

AI 蛋白质设计的终极目标，就是计算出“在给定一系列设计条件（Y）下，一个蛋白质序列（s）出现的概率分布”——即 p(s | y∈Y)。然后，从这个概率分布中采样，就能直接得到符合要求的候选蛋白序列。这就像在“天书”上施加了一个精确的“过滤咒”和“引导术”。

从统计学视角看基于人工智能的蛋白质工程

这篇综述论文指出，实现这个“咒语”主要有三大策略——

预设条件：在训练 AI 模型之初，就把“高温稳定性”、“催化效率”等条件作为“配方”直接“烘焙”进模型。这样做针对性强，但每次想要新条件，就得重新“烤”一个模型，成本高，不灵活。
组合模型：不重新训“天书”，而是给它配上一个“说明书”——一个能预测特定性质的 AI 模型。用数学方法将两者结合，动态地聚焦于我们关心的性质。这种方法灵活，可以利用最新的数据和模型，但计算上可能更复杂。“适应性条件采样”（CbAS）是此策略的代表。
即时引导：不改变模型本身，而是在模型“生成”新序列的每一步，都用“说明书”去实时“引导”生成过程，使其偏向满足条件的序列。扩散模型等常用此方法，优雅但生成速度可能较慢。

AI “炼丹”实战：从“骨架”到“血肉”

理论框架之下，AI 在蛋白质工程中正以几种具体方式大展拳脚：

骨架生成：先让 AI 想象出一个新的、稳定的蛋白质骨架结构。例如 RFdiffusion 和Chroma，能从一团“噪音”开始，逐渐“雕琢”出全新的、可设计的蛋白质三维骨架，并可以“即时引导”其包含特定的功能位点（例如药物结合口袋）。
逆折叠：有了骨架，下一步是“填充血肉”。逆折叠模型（例如 ProteinMPNN、ESM-IF1）能根据给定的骨架结构，设计出能折叠成这个形状的氨基酸序列。这是目前从头设计蛋白质流程中的关键一步。
联合生成：更前沿的研究试图让 AI“一蹴而就”，同时生成序列和结构，甚至直接精确到原子级别。这对于需要精确控制活性位点原子排布的酶设计，尤为重要。
评分与特征学习：一些生成模型本身不用于“创造”，而是用作“裁判”或“特征提取器”。它们能判断一个给定序列“像不像”一个天然、稳定的好蛋白，或者从序列中提取深层特征，用于预测其结构或功能。

成就、挑战与未来

AI 的引入，已带来实质性的突破。在蛋白质结合剂设计方面，成功率（命中率）从应用 AI 前的不到 0.05% 提升到了可观的百分比级别，使得许多设计可以通过微量反应板进行表征，而非依赖劳动密集型的高通量筛选。

然而，挑战依然严峻：

数据饥渴：设计能结合小分子、DNA/RNA（而不仅仅是另一种蛋白质）的蛋白，仍然困难，因为蛋白质与这些分子复合物的结构数据稀缺。

柔性难题：目前最成功的模型擅长设计由规则螺旋和折叠片构成的、刚性的“小球型”蛋白。但对于像抗体这样，依赖柔性环区进行分子识别的蛋白质，还缺乏通用的强大设计工具。

“圣杯”尚远：酶设计可能是最难的高峰，它需要精确到原子级别的活性位点化学知识。目前，AI 模型多是在已知酶活性位点的基础上“重塑”其周围结构，还难以从头设计针对全新化学反应的高效催化剂。

评估困境：如何公平地评估和比较不同的 AI 蛋白质设计方法？湿实验验证成本高昂，而依赖 AlphaFold 等结构预测模型又可能偏向于天然蛋白质的“舒适区”，限制了设计的创新性。因此，建立包含真实实验验证的基准测试，是推动领域发展的关键。

结语

总而言之，人工智能（AI）正在将蛋白质工程从一门依赖大量试错和物理近似的“技艺”，转变为一种基于概率模型和数据驱动的、可预测性更强的“工程科学”。它通过条件生成模型这一核心思想，统一了搜索与设计，让我们得以在蛋白质的浩瀚宇宙中进行“智能导航”。

尽管在酶设计、柔性蛋白设计等方面仍面临“硬骨头”，且 AI 模型的通用性和评估体系有待完善，但 AI 无疑已为这个领域装上了强大的引擎。未来，随着更多高质量数据的积累、模型与生物物理原理的更深融合，我们有理由期待，定制具有任何我们所能想象功能的蛋白质，将不再是遥不可及的梦想。

论文链接：

https://www.science.org/doi/10.1126/science.aec8444

设置星标，不错过精彩推文

开放转载

欢迎转发到朋友圈和微信群

微信加群

为促进前沿研究的传播和交流，我们组建了多个专业交流群，长按下方二维码，即可添加小编微信进群，由于申请人数较多，添加微信时请备注：学校/专业/姓名，如果是PI/教授，还请注明。

点在看，传递你的品味

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。