Nature子刊:丛乐/王梦迪团队利用AI识别、优化和从头生成RNA“翻译开关”,破解RNA疗法瓶颈


撰文丨王聪
编辑丨王多鱼
排版丨水成文
在基因疗法和 mRNA 疫苗研发中,精准控制蛋白质表达一直是个关键难题。传统的 mRNA 翻译机制依赖其“帽子结构”,但在细胞应激或病毒感染时,这种机制常常失效。这时,一种名为 IRES(内部核糖体进入位点)的 RNA 元件就成为了救命稻草,这是一段位于 mRNA 5' 端非翻译区的特殊序列,它能绕过帽子结构直接启动翻译,因此成为合成生物学和治疗性有效载荷表达中极具吸引力的工具。
然而,IRES 的研究和应用长期受限于两个瓶颈:一是识别困难,传统方法耗时费力;二是设计更难,其复杂的结构-功能关系让理性设计难以实现。

三驾马车:攻克 IRES 难题
在这项最新研究中,研究团队构建了一个端到端的 AI 框架,包含三个核心组件——IRES-LM、IRES-EA 和 IRES-DM,就像三位各司其职的专家,共同解决了 IRES 研究中的三大难题。
IRES-LM:火眼金睛的识别专家
首先需要准确识别 IRES。传统方法依赖手工特征,效果有限。研究团队训练了两个语言模型——专门研究 5'UTR 的 UTR-LM 和擅长非编码 RNA 分析的 RNA-FM,让它们学习 46774 个标记序列。
这个名为 IRES-LM 的模型组合表现惊人:在线性 mRNA IRES 识别上,曲线下面积(AUC)和 F1 分数比现有最佳方法提高了15%。更厉害的是,它虽然只训练了线性 RNA 数据,却能准确识别出所有21个经过实验验证的环状 RNA 的 IRES,而其他方法最多只能识别出 15 个。
IRES-EA:精准改造的进化大师
识别之后是改造 IRES。研究团队开发了 IRES-EA 进化算法,能够通过定向突变诱导 IRES 功能。算法会"掩蔽"序列中的某些位置,然后根据 IRES-LM 的预测,选择最可能增强功能的突变。
在 37293 个非 IRES 序列的计算评估中,60% 被成功转化为预测的 IRES 序列,其中 5% 达到了 90% 以上的高 IRES 概率。大规模并行报告实验验证了 12000 个突变序列,98.4% 都获得了可检测的IRES功能。
IRES-DM:创意无限的设计师
最后是从头生成 IRES。IRES-DM 这个基于扩散模型(diffusion model )的系统能够从随机噪声中生成全新的 IRES 序列,它不需要任何模板,完全凭“想象力”从头设计。
验证结果显示,IRES-DM 生成的序列中,99.3% 都具有功能 IRES 活性。更神奇的是,它能设计出与天然 IRES 序列相似度仅 27.6%、但二级结构高度相似的变体,揭示了实现 IRES 功能的多条进化路径。

实验验证:从计算预测到真实功能
AI 设计得再好,最终还是要看实际效果。研究团队通过双荧光双顺反子报告系统进行了大规模验证。
他们将细胞根据 GFP/mCherry 比例分成四个区间,然后通过下一代测序量化各区间中的序列丰度。对 IRES-EA 改造的 12000 个突变序列的测试显示,98.4% 的序列都表现出功能活性。对 IRES-DM 从头生成的另一组 12000 个序列的测试更是表现出 99.3% 的功能活性。
特别值得注意的是,AI 不仅复制了自然界中常见的高活性基序,还发现了自然进化中很少使用但活性很高的新模式,这意味着 AI 正在探索自然进化未曾涉足的序列空间。
意义与前景:打开 RNA 疗法新天地
这项研究的价值不仅在于技术突破,更在于它为整个 RNA 疗法领域打开了新的可能性。
首先,实现精准控制,通过 AI 设计和生成的 IRES,研究人员可以更精确地调控治疗性蛋白质的表达水平,这对于癌症治疗、遗传病治疗等都至关重要。
其次,提升 RNA 疫苗效果,工程化的 IRES 可以增强 mRNA 和环状 RNA 疫苗的翻译效率,提高疫苗的保护效果。
第三,允许多基因协同表达,IRES 允许在同一个 mRNA 上表达多个蛋白质,这对于需要多种蛋白质协同作用的复杂疗法特别有价值。
最后,提供基础研究新工具,可用于系统性研究 IRES 的工作机制,探索翻译调控的深层规律。
从精准识别到定向改造,再到从头生成,这套 AI 框架展现了深度学习在生命科学中的巨大潜力。它不仅是技术上的突破,更代表了一种研究范式的转变——从依赖自然进化的偶然发现,转向基于深度理解的理性设计。
相关阅读:
2024 年 4 月 5 日,普林斯顿大学王梦迪团队(褚晏伊、于丹为共同第一作者)在 Nature Machine Intelligence 上发表了题为:A 5′ UTR language model for decoding untranslated regions of mRNA and function predictions 的研究论文。
该研究开发了一种语言模型(language model)——UTR-LM,该模型利用其语义表征能力解码 mRNA 的 5'UTR 区并预测其功能,并在此基础上生成 mRNA 的 5'UTR 序列,其中,生成的新冠病毒 S 蛋白的 mRNA 的 5'UTR区,相比现有的优化的 5'UTR 区,能够将 S 蛋白生成水平大幅提高 32.5%,从而帮助开发更有效的 mRNA 疫苗。



1.
2.





点在看,传递你的品味




