Nature子刊：丛乐/王梦迪团队利用AI识别、优化和从头生成RNA“翻译开关”，破解RNA疗法瓶颈

发布时间：2026-04-27来源：生物世界

撰文丨王聪

编辑丨王多鱼

排版丨水成文

在基因疗法和 mRNA 疫苗研发中，精准控制蛋白质表达一直是个关键难题。传统的 mRNA 翻译机制依赖其“帽子结构”，但在细胞应激或病毒感染时，这种机制常常失效。这时，一种名为 IRES（内部核糖体进入位点）的 RNA 元件就成为了救命稻草，这是一段位于 mRNA 5' 端非翻译区的特殊序列，它能绕过帽子结构直接启动翻译，因此成为合成生物学和治疗性有效载荷表达中极具吸引力的工具。

然而，IRES 的研究和应用长期受限于两个瓶颈：一是识别困难，传统方法耗时费力；二是设计更难，其复杂的结构-功能关系让理性设计难以实现。

2026 年 4 月 24 日，斯坦福大学丛乐教授、普林斯顿大学王梦迪教授作为共同通讯作者（褚晏伊、尹笛、于丹、徐广雪为共同第一作者），在 Nature 子刊 Nature Machine Intelligence 上发表了题为：Programmable RNA translation through deep learning-driven IRES discovery and de novo generation 的研究论文。论文第一作者褚晏伊博士已加入中国科学院分子细胞科学卓越创新中心（生化细胞所），任独立研究员。

该研究构建了一个全面的端到端 AI 框架，将 IRES 的精准识别（IRES-LM）、进化优化（IRES-EA）和从头生成（IRES-DM）统一起来。这一框架为可编程 RNA 翻译建立了一种稳健方法，扩大了用于推进下一代生物医学发现和 RNA 疗法的分子工具包。

三驾马车：攻克 IRES 难题

在这项最新研究中，研究团队构建了一个端到端的 AI 框架，包含三个核心组件——IRES-LM、IRES-EA 和 IRES-DM，就像三位各司其职的专家，共同解决了 IRES 研究中的三大难题。

IRES-LM：火眼金睛的识别专家

首先需要准确识别 IRES。传统方法依赖手工特征，效果有限。研究团队训练了两个语言模型——专门研究 5'UTR 的 UTR-LM 和擅长非编码 RNA 分析的 RNA-FM，让它们学习 46774 个标记序列。

这个名为 IRES-LM 的模型组合表现惊人：在线性 mRNA IRES 识别上，曲线下面积（AUC）和 F1 分数比现有最佳方法提高了15%。更厉害的是，它虽然只训练了线性 RNA 数据，却能准确识别出所有21个经过实验验证的环状 RNA 的 IRES，而其他方法最多只能识别出 15 个。

IRES-EA：精准改造的进化大师

识别之后是改造 IRES。研究团队开发了 IRES-EA 进化算法，能够通过定向突变诱导 IRES 功能。算法会"掩蔽"序列中的某些位置，然后根据 IRES-LM 的预测，选择最可能增强功能的突变。

在 37293 个非 IRES 序列的计算评估中，60% 被成功转化为预测的 IRES 序列，其中 5% 达到了 90% 以上的高 IRES 概率。大规模并行报告实验验证了 12000 个突变序列，98.4% 都获得了可检测的IRES功能。

IRES-DM：创意无限的设计师

最后是从头生成 IRES。IRES-DM 这个基于扩散模型（diffusion model ）的系统能够从随机噪声中生成全新的 IRES 序列，它不需要任何模板，完全凭“想象力”从头设计。

验证结果显示，IRES-DM 生成的序列中，99.3% 都具有功能 IRES 活性。更神奇的是，它能设计出与天然 IRES 序列相似度仅 27.6%、但二级结构高度相似的变体，揭示了实现 IRES 功能的多条进化路径。

实验验证：从计算预测到真实功能

AI 设计得再好，最终还是要看实际效果。研究团队通过双荧光双顺反子报告系统进行了大规模验证。

他们将细胞根据 GFP/mCherry 比例分成四个区间，然后通过下一代测序量化各区间中的序列丰度。对 IRES-EA 改造的 12000 个突变序列的测试显示，98.4% 的序列都表现出功能活性。对 IRES-DM 从头生成的另一组 12000 个序列的测试更是表现出 99.3% 的功能活性。

特别值得注意的是，AI 不仅复制了自然界中常见的高活性基序，还发现了自然进化中很少使用但活性很高的新模式，这意味着 AI 正在探索自然进化未曾涉足的序列空间。

意义与前景：打开 RNA 疗法新天地

这项研究的价值不仅在于技术突破，更在于它为整个 RNA 疗法领域打开了新的可能性。

首先，实现精准控制，通过 AI 设计和生成的 IRES，研究人员可以更精确地调控治疗性蛋白质的表达水平，这对于癌症治疗、遗传病治疗等都至关重要。

其次，提升 RNA 疫苗效果，工程化的 IRES 可以增强 mRNA 和环状 RNA 疫苗的翻译效率，提高疫苗的保护效果。

第三，允许多基因协同表达，IRES 允许在同一个 mRNA 上表达多个蛋白质，这对于需要多种蛋白质协同作用的复杂疗法特别有价值。

最后，提供基础研究新工具，可用于系统性研究 IRES 的工作机制，探索翻译调控的深层规律。

从精准识别到定向改造，再到从头生成，这套 AI 框架展现了深度学习在生命科学中的巨大潜力。它不仅是技术上的突破，更代表了一种研究范式的转变——从依赖自然进化的偶然发现，转向基于深度理解的理性设计。

相关阅读：

2024 年 4 月 5 日，普林斯顿大学王梦迪团队（褚晏伊、于丹为共同第一作者）在 Nature Machine Intelligence 上发表了题为：A 5′ UTR language model for decoding untranslated regions of mRNA and function predictions 的研究论文。

该研究开发了一种语言模型（language model）——UTR-LM，该模型利用其语义表征能力解码 mRNA 的 5'UTR 区并预测其功能，并在此基础上生成 mRNA 的 5'UTR 序列，其中，生成的新冠病毒 S 蛋白的 mRNA 的 5'UTR区，相比现有的优化的 5'UTR 区，能够将 S 蛋白生成水平大幅提高 32.5%，从而帮助开发更有效的 mRNA 疫苗。