AI如何重塑生物科研——从“大海捞针”到“精准工程”
发布于 June 1, 2026

如果说过去100年的生物科研是“在大海里捞针”,那么AI的介入,就像是给每位生物学家配上了一台声呐扫描仪。
2024年,诺贝尔化学奖颁给了AI——这个曾被生物学家视为“外行工具”的技术,正式登上了生命科学的最高殿堂。获奖者David Baker团队实现了蛋白质的“从头设计”,而Demis Hassabis和John Jumper的AlphaFold则解决了困扰学界半个世纪的蛋白质结构预测难题。这不仅是对三位科学家的肯定,更是对整个AI驱动生物科研范式的加冕。
那么,AI究竟给生物科研带来了哪些根本性的改变?

AI-Biology-Revolution
一、科研范式的历史性转折
上海交通大学特聘教授、天鹜科技首席科学家洪亮曾有一个精辟的论断:人工智能正在将蛋白质工程从一门依赖经验和运气的复杂“科学”,转变为可预测、高效率的“工程”。
这句话道破了AI赋能生物科研的本质。传统科研模式可以概括为“假设驱动+实验验证”——学家提出假设,设计实验,等待结果,分析数据,修正假设,然后重复这一过程。一个完整的科研周期动辄数年,尤其是在蛋白质工程领域,筛选一个高性能蛋白质变体往往需要构建数千到上万个突变文库,耗费大量的时间和资源。
AI的介入,将这一模式重构为“数据驱动+模型预测+自动化验证”的闭环流程。科研人员不再需要在黑暗中盲目摸索,而是可以通过AI模型获得“智囊团”式的精准指导,从而在浩瀚的分子空间中快速锁定最优解。
洪亮的这句话也得到了来自学术顶刊的佐证。2025年发表在《BioDesign Research》上的一篇综述提出了一个统一的人工智能优先框架,将酶工程从单一酶建模扩展到了多酶途径设计,整合了序列、结构和反应环境等多个维度。
二、AI赋能生物科研的三大核心能力

Three Core Capabilities
能力一:AI酶挖掘——从宏基因组“暗物质”中精准捕捞
宏基因组学技术的成熟,使得生物学家能够直接对环境中所有微生物的DNA进行测序,无需先培养它们。然而,海量的数据也带来了新的挑战——我们发现了数以亿计的未知蛋白质序列,但绝大多数功能仍处于“未知”状态。这些“宏基因组暗物质”就像一座巨大的金矿,我们却缺少高效的“淘金铲”。
2026年,PNAS发表的一项重要研究成果展示了AI在这一领域的突破性应用。该团队开发的Horizyn-1机器学习模型,能够根据给定的化学反应直接推荐适配的酶序列,并在罕见反应去孤儿化、酶混杂活性预测以及非天然生化转化等多个任务上完成了全面的实验验证。
与此同时,ACS Catalysis在2026年初发布的重磅综述《Machine Learning-Driven Enzyme Mining: Opportunities, Challenges, and Future Perspectives》系统梳理了机器学习如何在酶挖掘全流程中实现范式转移——将传统的序列同源性搜索方法,升级为数据驱动的精准功能预测。综述指出,如今的机器学习模型已经能够以高通量方式预测酶的EC编号、基因本体术语、底物特异性、溶解度和热稳定性等多项关键功能参数。
能力二:AI突变预测——在指数级组合空间中找到“最优解”
如果说酶挖掘解决的是“找到什么酶”的问题,那么突变预测解决的就是“如何让酶变得更好”的问题。
一个长度为300个氨基酸的蛋白质,理论上可能的单点突变组合就有约5,700种,双点突变达到约16,000,000种,三点突变更是达到约3.1×10¹⁰级别。传统的定向进化方法只能逐一测试,科研效率极其低下。
而AI驱动的突变效应预测模型正在彻底改变这一局面。2025年发表在Nature Communications上的一项研究中,研究者通过深度学习指导的定向进化算法,仅仅通过约4,000个突变株的有限筛选,就有效搜索了10³⁵级别的组合空间——这个数字大得令人难以想象,相当于在已知宇宙中所有原子数量级别的组合空间中快速找到了目标。最终,该团队成功将绿色荧光蛋白的活性提升了73倍,达到了现有金标准活性近两倍的水平。
另一项发表在Nature Communications上的研究则构建了一个机器学习引导的无细胞表达平台,仅通过对1217个酶变体进行约1.1万次反应测试,就成功构建了预测模型,将酰胺合成酶的活性提升了1.6至42倍,用于生产9种小分子药物。
能力三:蛋白质语言模型——“读懂”生命密码的AI
这是AI赋能生物科研中最具“科幻感”的一个领域。蛋白质语言模型,简单来说,就是把蛋白质的氨基酸序列当作“语言”来训练AI——就像学习英语一样,蛋白质语言模型通过分析数以亿计的蛋白质序列,学习其中的“语法”和“语义”,从而具备预测蛋白质功能,甚至设计全新蛋白质的能力。
2025年发表在ScienceDirect上的一项研究中,研究者使用蛋白质语言模型Pro-PRIME同时优化了环糊精酶的三个酶学性质——增强转糖苷活性、降低水解活性、提高区域选择性,展示了语言模型指导酶工程以平衡竞争性催化活性的强大能力。
在国内学术界,上海交通大学洪亮课题组及其合作者于2025年7月发布了Venus系列大模型的新成员VenusMine,该模型融合了蛋白质语言大模型与三维结构分析,通过蛋白质序列、结构和功能之间的隐含映射规则,能够在海量蛋白质数据库中高效挖掘同源性低但功能优异的酶分子。
三、从学术概念到产业实践:天鹜科技的探索

Biological research
将上述学术前沿转化为产业实践,天鹜科技自主研发的MatwingsVenus™(晓鹜™)蛋白质研发智能体,正在将AI驱动的生物科研从概念推向现实。
对话式科研——“所想即所得”
MatwingsVenus™(晓鹜™)是一个对话式蛋白质研发智能体。用户只需像与人对话一样,通过自然语言提出研发需求,它就能自动完成从文献查阅、专利检索到蛋白质序列设计等全流程任务,实现真正意义上的“所想即所得”。
这套系统的核心能力覆盖了AI科研的完整链条:AI定向进化、AI挖酶、从头设计、结构预测、突变效应预测等。更重要的是,它整合了百亿级蛋白质序列数据库——其中不仅涵盖常规生物信息,还包括深海、火山等各种极端环境中采集的耐高温、耐强压、耐强酸/碱的蛋白质序列信息。这些在极端环境中进化了数百万年的蛋白质,本身就蕴藏着巨大的工业应用潜力。
从学术理论到产业落地
在某免疫调控受体靶点的从头设计项目中,天鹜科技基于自主研发的MatwingsVenus™(晓鹜™)平台,成功获得了数十个具备体外细胞阻断活性的全新binder分子,完成了从头设计binder的全流程验证,展现了AI驱动的蛋白质创新药物研发实力。
在食品相关产业的糖基转移酶工程化应用中,天鹜科技仅用4个月便将酶的总糖基化活性提升了7倍,产品特异性从60%提升至98%,最终将核心物料成本降低了90%。这一案例充分体现了AI赋能科研范式带来的效率革命——传统方法可能需要2~3年的研发周期,在AI驱动下被压缩到4个月。
极致技术储备
天鹜科技构建了包含近90亿条序列的专用蛋白质数据集,依托“溟渊计划”整合了来自火山、深海海沟等极端环境中的特殊功能序列。平台还整合了200多种蛋白质设计工具、百亿级标签数据库和经过专家优化的Skills,能够自动完成从靶点发现、分子设计到性能预测的全流程计算工作。
MatwingsVenus™(晓鹜™)更是在2026年5月获东方卫视与上视新闻专题报道,成为上海基础研究转化的典范,充分证明了AI驱动的生物科研范式在中国已经走出了从学术理论到产业实践的坚实路径。
四、展望:AI生物科研的下一个前沿
2026年3月,NVIDIA Digital Biology Labs在GTC大会上公布了一系列新进展,系统展示了AI在蛋白质结构与功能设计领域的能力。Nature Communications在2026年5月发表的前沿展望指出,结构生物学正在进入新阶段,其中生成式方法旨在逼近玻尔兹曼加权的系综,能够从头设计高亲和力的蛋白质结合剂。
2025年,中国生物制造产业规模已达10,100亿元,正式迈上万亿元台阶;全球生物制造产业规模达到12,190亿美元,整体呈现稳步增长态势。驱动这一万亿级产业增长的核心引擎之一,正是AI赋能的生物科研新范式。
从“大海捞针”到“AI精准导航”,从“十年磨一剑”到“数月见分晓”——AI正在重新定义生物科研的效率和边界。而对于正在阅读这篇文章的每一位科研工作者来说,这场变革刚刚开始。未来的生物科研,可能不再是“你有多努力”,而是“你如何与AI高效协作”。