生物学的编程语言来了——Proto,让科学家像写代码一样设计生命


撰文丨王聪
编辑丨王多鱼
排版丨水成文
多年来,生物学研究一直依赖于通过试错或筛选成千上万的候选物来组装天然组分,直到找到有效方案。尽管用于蛋白质设计、RNA 工程和基因调控的强大的 AI 模型有望加速这一过程,但这些模型仍各自封闭在计算领域中,许多实验生物学家难以触及。
而现在,生物学大模型 Evo 和 Evo2 的开发者、斯坦福大学/Arc 研究所的 Brian Hie 推出了一种用于生成式生物学的高级编程语言——Proto,这是一个整合多种 AI 工具的框架,旨在实现复杂且多模态的生物学设计。

该研究推出了一种面向生成式生物学的高级编程语言——Proto,其能够跨多模态和尺度(涵盖 DNA、RNA、蛋白质、配体及其相互作用)编码生成式设计任务。Proto 可直接将预测模型整合到生成式工作流中,研究团队利用这一点在人类细胞系中设计并实验验证了可变剪接的内含子。Proto 原生支持多目标优化,能够设计出在合成蛋白-DNA 设计中实验成功率领先的启动子-阻遏物对。结合 AI 智能体,Proto 还可通过自然语言指令实现复杂通路与调控逻辑的定义。
此外,研究团队开源发布了 Proto,包括其软件基础设施和用户界面,以促进生成式生物学编程的广泛使用。

为什么我们需要一门生物学编程语言?
传统的生物工程设计,有点像“考古”:研究人员从自然界已有的天然生物组件中挑选、组合,然后通过“构建-测试-学习”循环,不断迭代探索,验证效果,整个过程既耗时又昂贵,而且很大程度上依赖经验和运气。
近年来,生成式 AI 模型的出现大大改善了这种情况。但问题是,现有的方法非常“碎片化”——有的模型擅长设计蛋白质,有的模型擅长设计 DNA,有的只能做预测分析。想把它们组合起来解决复杂问题?那简直是一场噩梦。
正是这种困境,催生了——Proto。
Proto 是什么?
Proto 的核心思想其实很简单:它把复杂的生物设计任务抽象成四个基本“原语”(Primitive)——
1、序列(Sequence):这是最基础的单元,代表一段 DNA、RNA 或蛋白质字符串。就像编程中的变量。
2、约束(Constraint):这是一个评分函数,用来判断某段序列是否“好”。比如,它可以是一个简单的统计指标(例如 GC 含量),也可以是 AlphaFold 这样的神经网络预测器,分数越低越好。
3、生成器(Generator):负责提出候选序列。可以是大型语言模型(例如 Evo2)、扩散模型,甚至只是随机采样器。
4、优化器(Optimizer):通过迭代循环,不断改进生成的序列,使其满足约束条件,就像一个智能的“筛选+改进”引擎。
这四种组件可以像乐高积木一样自由组合,构建出从简单到极其复杂的设计程序。

Proto 概述
理论之美:能量模型视角
Proto 背后有一个优雅的数学框架。研究团队将整个设计过程建模为一个基于能量的模型:𝜋(𝑥) ∝ 𝑝(𝑥) exp(−𝑓(𝑥)/𝑇),即目标分布正比于生成器先验 × exp(-约束得分/温度)。

这个公式的意思是:我们既要保持生物序列的“合理性”(由生成器保证),又要追求功能的“优越性”(由约束保证)。温度参数则控制着两者之间的平衡。
更妙的是,多个约束可以简单地相加,形成“专家乘积”——这意味着你可以同时优化多个目标,比如既要蛋白质结构稳定,又要它能与特定 DNA 结合,还要它在特定细胞中表达。
实验验证:不只是纸上谈兵
Proto 不仅仅是一个理论框架。研究团队用大量实验证明了它的实用性。
案例一:设计细胞特异性剪接的内含子
基因的表达不仅取决于转录,还取决于 RNA 的剪接方式。研究团队利用 Proto 设计了能在不同人类细胞系中实现差异化剪接的内含子序列。他们只测试了 65 个候选序列,就有 32% 表现出显著的目标方向差异剪接。相比之下,此前一项类似研究的成功率不到 7%,而且测试了超过 10 万条序列。
其中一个名为 PI-KS1 的设计,在 SH-SY5Y 神经细胞中只有 36% 被剪接,而在 K562 白血病细胞中却有 71% 被剪接——实现了精准的细胞类型特异性调控。
案例二:协同设计启动子-阻遏蛋白对
更令人印象深刻的是,Proto 还能跨模态协同设计——即同时设计 DNA 元件和与之相互作用的蛋白质。研究团队设计了全新的 σ70 启动子(称为 ProtoPromoter),其中 86 个候选中有 71 个的活性超过了已知的强启动子 PLtetO1。他们还针对这些启动子设计了对应的阻遏蛋白(称为 ProtoRepressor),成功率达到 46%。最强的设计之一——ProtoRepressor 44_9,对其目标启动子展现出 2 倍的抑制效果,而对非目标启动子几乎没有影响,展现了出色的特异性。
案例三:AI 智能体驱动的复杂系统设计
Proto 还集成了通用 AI 智能体。研究人员只需用自然语言描述需求,AI 智能体就能自动编写 Proto 程序。
他们用这种方法完成了三个极具挑战性的任务:
蛋白质组规模的复合体多样化:设计了 249 个人类蛋白质复合体,涵盖 797 个基因,所有设计的结构预测都与天然结构高度一致(中位 RMSD 仅 1.9 埃);
完整信号通路的重设计:重新设计了 β2-肾上腺素信号通路,涉及 8 种蛋白质、多种小分子配体和 DNA 元件; 癌症靶向治疗载体设计:设计了靶向非小细胞肺癌的多层调控系统,包括肿瘤特异性细胞进入、转录、剪接和翻译后调控。
工程挑战与开源贡献
Proto 的开发并非易事。当前的生物学 AI 模型生态“各自为政”,每个工具都有自己的软件依赖、硬件要求和数据格式。Proto 团队为此付出了巨大的工程努力,建立了一套标准化的基础设施,目前已支持超过 120 种工具。
目前,研究团队已将 Proto 完全开源,包括 Python API、图形用户界面和云端执行环境。任何人都可以通过 访问和使用。
Proto 代表了生物设计领域的一次范式转变。正如高级编程语言 Verilog 和 C 语言推动了大规模集成电路和计算机程序的发展,Proto 有望成为生物系统设计的“通用语言”。
当然,目前最大的瓶颈仍然是实验验证——再好的计算设计也需要在实验室中检验其实际功能。但随着测序技术、基因合成和细胞工程的进步,这个差距正在迅速缩小。
正如研究团队在论文中所写——随着生物学序列生成式模型、序列到功能预测模型以及基于大语言模型推理的 AI 智能体的不断改进,Proto 所能设计的生物学功能在范围、规模和可靠性方面都将得到提升。随着 Proto 这类生成式生物编程技术的持续成熟,可以设想,未来的生物学设计将不再受限于天然可用的元件列表,而是受限于人类的创造力。
论文链接:
https://www.biorxiv.org/content/10.64898/2870v1





点在看,传递你的品味




