科学人员如何进行AI蛋白质设计?
发布于 May 8, 2026

当你听到“AI设计蛋白质”这个词,脑子里浮现的可能是这样的画面:科学家对着屏幕输入几行代码,一眨眼,一种自然界从未存在过的全新蛋白质就诞生了。
这个画面并不夸张。就在2024年,诺贝尔化学奖被s授予了David Baker、Demis Hassabis和John Jumper三位科学家,理由恰恰是他们在AI蛋白质结构预测和设计领域的革命性贡献。这意味着,AI蛋白质设计已经从实验室里的前沿探索,正式登堂入室成为主流科学。
传统蛋白质设计如同“大海捞针”,耗时数年且成功率极低,而AI的介入,彻底将这场“碰运气”的科研,变成了可精准把控的工程化操作。
那么问题来了:科学人员到底是怎么用AI来设计蛋白质的?这背后是一套怎样的“功法”?今天我们就来拆解一下。
蛋白质本质上是一串氨基酸序列,但这串序列会在三维空间中折叠成特定的形状——就像一个极其复杂的折纸艺术。传统上,科学家要搞清楚一个蛋白质的结构,需要用到X射线晶体学或者冷冻电镜,动辄耗时数月甚至数年。
AI改变了这局面。以DeepMind开发的AlphaFold和David Baker团队开发的RoseTTAFold为代表,这些AI模型可以在短短几分钟到几小时内,从氨基酸序列精准预测出蛋白质的三维结构。打个比方,这就相当于以前要手工测量一座建筑的每一个尺寸,现在直接扔给AI一张平面图,它就能立刻渲染出完整的3D模型。
这项工作本身已经获得了诺贝尔奖的肯定,但它只能算AI蛋白质设计的“入场券”——我们还需要更进一步。

有了结构还不够。科学人员真正想做的事,是逆向工程:给定一个目标功能(比如“能高效分解塑料的酶”或者“能精准阻断癌细胞的抗体”),“反向”设计出能够实现这个功能的蛋白质序列和结构。这就是所谓的“从头设计”(de novo design)。
这背后的核心逻辑,是让AI“读懂”蛋白质的语法。
蛋白质的氨基酸序列就像一种只有20个字母的语言(对应20种天然氨基酸)。这些字母以特定的方式组合、折叠、相互作用,形成了自然界经过数十亿年进化筛选出的“功能句子”。近年来,科学人员开发了大量的蛋白质语言模型(protein language models),它们类似于训练ChatGPT的大语言模型,只不过“语料库”换成了数亿条蛋白质序列。
通过大规模预训练,这些模型学会了蛋白质序列中的演化规律、结构约束和功能模式。一旦掌握了这门“语言”,AI就可以生成符合物理化学规律的、全新的蛋白质序列,而且这些序列在自然界中可能从未出现过。
其中最具里程碑意义的方法之一是扩散模型(diffusion models)的引入。扩散模型最初在图像生成领域大放异彩(Stable Diffusion等),科学人员将其创造性地移植到了蛋白质设计领域。其大致原理是:先给蛋白质结构加上噪声使之变形,再训练模型学会逆向地去噪还原,模型在这一“破坏-修复”循环中便学会了如何从随机噪声中“生长”出满足特定几何约束的全新蛋白质骨架。
在此基础上,ProteinMPNN等工具再完成最后一步——将生成的蛋白质骨架“翻译”回具体的氨基酸序列。
这就构成了经典的两步走方法:先生成蛋白质骨架,再“填入”序列。在某些场景下,这一方法与计算物理学中的“逆问题”有着微妙的呼应——不是从第一性原理出发推导蛋白质如何折叠,而是让数据驱动模型学会从结构“反推”序列的映射关系。

如果说上述方法解决的是“从结构到序列”的问题,那么科学人员的终极追求,是打通“从序列到功能”的最后一环——毕竟最终要交付的不是一串代码,而是一个真正“好用”的蛋白。用行话说,这叫“干湿闭环”:AI在数字世界完成设计(干实验),机器人实验室执行验证(湿实验),验证结果再反馈回AI进行下一轮优化。
在这方面,国内公司也给出了自己的答案。
2026年4月,上海天鹜科技发布了对话式蛋白质研发智能体MatwingsVenus™(晓鹜™),将上述思路集成到了一个用户可以“聊着天”使用的平台上。
平台的逻辑很有意思:用户通过自然语言输入任务目标——比如“帮我设计一个能阻断某个免疫调控受体的蛋白”——系统会自动拆解任务,调度背后的200多种蛋白质设计工具,完成从骨架筛选、界面设计、序列优化到成药性预判的全流程计算工作。随后,设计结果会被无缝衔接至自动化实验室,由机器人完成样品制备、蛋白纯化和功能检测,检测结果再回流至下一轮AI设计,形成“计算驱动湿实验、湿实验反哺计算”的迭代闭环。
在真实的药物研发场景中,这套系统已在多个项目中得到验证。例如,针对某免疫调控受体靶点的从头设计项目,MatwingsVenus™成功获得了数十个具备体外细胞阻断活性的全新binder分子,完成了“AI设计—自动化实验—功能验证”的全流程闭环。
值得一提的是,这个平台的缔造者——天鹜科技首席科学家洪亮教授——在2025年浦江创新论坛上提出了一个更远大的愿景。他将AI蛋白质设计的发展划分为三个阶段: “过去式” 是AlphaFold、RFdiffusion等已被广泛认可的成熟工具; “进行时” 是当前正在使用的AI Agent和通用蛋白质大模型;而 “将来时” ,他称之为“AI共研科学家”(AI Co-scientist)——届时AI将能够主动提出科学假设并设计验证路径,成为与人类科学家协同创新的主体。


回过头来看,AI蛋白质设计的本质,是一场从“碰运气”到“可编程”的范式革命。
过去,蛋白质工程更像是一门手艺活——依赖科学家的经验、直觉和大量的试错。现在,几何深度学习、扩散模型、蛋白质语言模型等工具的爆发,正在让蛋白质设计逐渐从一门复杂“科学”转变为可预测、高效率的“工程”。
而像MatwingsVenus™这样打通AI预测与自动化实验的平台,则进一步将过去只有大型机构才能调动的研发能力,压低到个人和小团队也能触及的门槛——这或许才是这场变革中最激动人心的部分。
蛋白质设计的“编程时代”,正在到来。