AI挖酶 :从传统筛选到智能设计的技术跃迁
发布于 May 19, 2026
无论是创新药研发、高端食品配料,还是绿色化工与生物基材料,其背后都离不开一类关键元件——酶。如果说蛋白质是生物制造的“工人”,酶就是其中最核心的“技术工”,决定了从原料到产物的每一步转化效率。
然而,从自然界中找到一款恰好满足工业生产需求的酶,多年来始终是一项极具挑战性的工作。近两年,“AI挖酶”这个词开始在行业内高频出现。它到底解决了什么问题?背后是怎样的技术逻辑?目前走到了哪一步?这篇文章尝试做一个系统性的梳理。
01 传统“找酶”到底难在哪里?
过去工业应用中的酶通常来自两种途径:一是从自然环境中“找”,二是基于已知酶进行“改”。
先看“找”。自然界虽蕴藏着海量的酶资源,但天然酶往往存在活性低、稳定性差、底物谱窄等先天问题。要从成千上万种未知酶中筛出一个合格候选,需要构建宏基因组文库、进行高通量功能筛选——即便手握数万个突变体样本,实验成功率也常常低于1%,被业内形容为“大海捞针”。
再看“改”。以定向进化为代表的技术路线,通过随机突变和迭代筛选逼近最优解。这种方法在1990年代以后成就了多个工业酶改良的成功案例,但它的本质仍然是“在局部海域里撒网”。筛选数千个变体只是起步,而且每一轮进化都需要重新构建文库、重新表达、重新检测,时间和金钱成本极高。
天鹜科技首席技术官刘灏曾做过一个形象的测算:一个由361个氨基酸组成的蛋白质,仅替换1个氨基酸就有近7000种可能;替换2个便增至2300多万种;若替换3个,可能性更是高达约533亿种。在传统的定向进化或高通量筛选模式下,科研人员往往需要在实验室里一轮又一轮地构建突变体库、表达、纯化、测活,耗时数月甚至数年,筛选的样本量却连整个序列空间的沧海一粟都算不上。
更深层的问题在于数据孤岛。我国酶蛋白数据分散在不同的研究机构和企业中,格式不统一、共享机制不健全,难以形成支撑高精度AI设计的大规模标准化数据集。这种“数据土壤贫瘠”的现状,进一步拉高了从零开始挖酶的难度。
02 “AI挖酶”是什么?它和传统方法有何本质不同?
Enzyme Protein Design
所谓“AI挖酶”,并不是简单地用计算机辅助筛选已知酶数据库——那是BLAST等传统序列比对工具早就有的功能。真正的“AI挖酶”,指的是利用大规模蛋白质语言模型或结构预测模型,从序列—功能关系的底层统计规律出发,直接“计算”出满足特定催化需求的新型酶序列。
具体来讲,一个典型的“AI挖酶”流程包括以下几个环节:
数据准备:收集海量的蛋白质序列(通常达到亿级甚至百亿级),并尽可能附带有实验测定过的功能标签(如底物特异性、热稳定性、pH活性等)。这些数据构成了“教科书”。
模型预训练:采用无监督或自监督学习的方式,让深度神经网络学习蛋白质序列的“语法”和“语义”——即哪些氨基酸排列模式更可能出现、哪些模式与特定功能强相关。
微调与预测:针对目标反应类型(如酯水解、糖基化、C-H键氧化),用少量已知功能数据对预训练模型进行微调,使其能够给候选序列打出“功能分”。
候选排序与验证:模型输出一批高置信度的候选酶序列,交由实验验证其真实活性与稳定性。
与传统方法相比,“AI挖酶”的核心差异在于:从“实验驱动”转向“数据+模型驱动”。传统方法需要在湿实验中进行大规模筛选才能碰运气找到好的候选;而AI挖酶试图在干实验阶段就大幅缩小候选空间,甚至直接“设计”出全新的酶序列,再通过少量精准实验确认。
这意味着,过去需要数年、耗资数百万的酶发现项目,有可能被压缩到几个月甚至几周。这不仅仅是“加速”,更是研发范式的迁移。
03 为什么现在“AI挖酶”开始变得可行?
“AI挖酶”的概念并非今天才有,但直到最近几年,它才真正从学术演示走向产业可用。这背后是多重技术条件的成熟叠加:
首先是蛋白质语言模型的成熟:以ESM、ProGen、ProtGPT2等为代表,这些模型在数亿条蛋白质序列上预训练后,能够隐式地学习到结构约束与功能倾向性。它们不再只是做序列比对,而是能“理解”蛋白质的进化规律。
其次是高通量数据的积累:虽然数据标准化仍不完美,但近年来公共数据库(如UniProt、BRENDA、PDB)以及企业自有的内部数据量级已经比十年前增长了2–3个数量级。更多的带标签数据让模型的微调更加可靠。
最关键的是“干湿闭环”基础设施的搭建:早期“AI挖酶”常常卡在“算出来但验证不了”的环节,因为自动化实验能力不足。而近两年,一批产学研机构开始建设整合了AI设计、自动化质粒构建、自动蛋白表达纯化、功能检测的机器人工作站,让高迭代频率的“设计—实验—再设计”成为可能。
以当前代表性的MatwingsVenus™(晓鹜™)智能体平台为例,
AI代理完成蛋白质设计后,平台通过自主构建的通讯机制,将结果导入质粒订购与实验编排流程,自动衔接后续实验任务,驱动机器人完成样品制备、蛋白纯化和功能检测,最终将实验结果回流至下一轮AI设计。正是这种“设计即验证、验证即迭代”的闭环,让“AI挖酶”具备了真正的产业竞争力。
04 当前已经出现的代表性的“AI挖酶”系统
正是得益于上述技术条件的成熟,近年来全球范围内涌现出一批代表性的“AI挖酶”系统。
它们各有侧重,但一个共同的趋势是:从“工具集”走向“智能体(Agent)”——用户不再需要学习复杂的代码或命令行,而是可以通过自然语言描述任务目标,由系统自动拆解、调度工具、完成分析并给出候选方案。
以2026年4月天鹜科技发布的MatwingsVenus™(晓鹜™)为例。它是一款对话式蛋白质研发智能体,底层整合了百亿级真实标签蛋白质数据、200多种蛋白质设计工具、50多位经平台认证的专家以及30多个领域调优的Skills。用户无需掌握复杂的生物信息学命令行,只需用自然语言描述目标——例如“我需要一个能催化XX反应、耐70℃的酶”,系统便会自动调度工具链,并将最终候选序列送入自动化共享实验室执行验证。
从单一模型到智能体平台,从预测工具到干湿闭环系统,“AI挖酶”的基础设施正在快速分层与完善。
Enzyme Design and Experimentation
05“AI挖酶”对产业意味着什么?
对于从事合成生物学、酶工程、生物医药研发的企业和团队,“AI挖酶”带来的核心变量是——研发效率的指数级提升与准入门槛的下降。
过去,一个三人团队很难独立开展工业酶开发项目,因为必须配备分子生物学、蛋白纯化、高通量筛选等多个实验能力。而在AI挖酶+自动化实验的辅助下,一个人或一个微型团队就有可能完成过去需要多个部门接力才能完成的任务。
如果你身处生物制造相关产业,“AI挖酶”已经不是一个“要不要试试”的选项,而是“能比别人快多少”的竞争问题。传统路径的边际成本越来越高,而数据驱动的智能路径正在加速收敛。那些能够尽快将“AI挖酶”整合进入自身研发流程的团队,大概率会在未来两三年内拉开显著的效率差距。
对于个人研究者而言,也可以去了解一些已经开放体验的“AI挖酶”平台,亲自试一下“输入需求→获得候选序列”的流程。毕竟,有些认知的变化,只有亲自操作一遍才能体会。