蛋白大模型：从理解蛋白质语言到构建研发智能体 | MatwingsVenus™（晓鹜™）

如果说自然语言大模型让机器学会了“理解”人类的文字，那么蛋白大模型正在尝试一件更具本质意义的事——让AI读懂生命的“语言”。

蛋白质由20种氨基酸组成的序列编码而成。这段序列决定了它如何折叠成三维结构、执行何种功能、与哪些分子相互作用。从某种意义上说，蛋白质本身就是一套经过亿万年演化的精密“语言系统”。而蛋白大模型的核心任务，正是从海量蛋白质序列数据中学习这套系统的“语法”与“语义”，进而实现对蛋白质的理解、预测乃至全新设计。

Protein Language From Sequence to Structure

一、什么是蛋白大模型？

蛋白大模型并非一个单一的技术概念，而是一类基于深度学习架构、在蛋白质序列或结构数据上进行大规模预训练的模型统称。其底层逻辑与自然语言处理中的大语言模型有诸多相似之处：将氨基酸视为“单词”，将蛋白质序列视为“句子”，通过自监督学习任务（如掩码语言建模、序列生成）来捕捉氨基酸之间的上下文依赖关系。

这一思路在近年来被持续验证。以ESM系列为代表的蛋白质语言模型，在自监督学习条件下就能实现对蛋白质结构与功能的精准预测，性能一度逼近甚至超越了传统依赖多序列比对的方法。2025年，xTrimoPGLM将参数量扩展到千亿级别，进一步展示了规模效应对蛋白质理解深度的增益。

然而，理解只是第一步。蛋白大模型真正令人兴奋的方向，是从“读懂”走向“书写”——即生成全新的、不存在于自然界中的功能性蛋白质序列。

Protein Language Models From Reading to Writing

二、生成能力的突破：蛋白大模型的关键跃迁

2025年至2026年初，蛋白大模型的生成能力经历了多轮迭代。以ProGen3为代表的大规模生成模型，在1.5万亿个氨基酸标记上完成训练，学会了从零生成完整蛋白序列，更重要的是能够根据给定的上下文“填空”——在序列中特定位置生成符合局部结构与功能需求的片段。同年，ESM3尝试将序列、结构、功能三个模态统一到一个生成式框架中，使模型能够根据复杂的组合条件生成特定功能的蛋白。

与此同时，扩散模型的入场为蛋白设计补充了另一条技术路径。RFdiffusion系列通过从随机噪声中逐步去噪的方式，生成全新蛋白骨架，并在RFdiffusion2和RFdiffusion3中逐步实现了原子级精度的活性位点设计与全原子环境建模。值得注意的是，这类扩散模型通常与蛋白大模型配合使用：扩散模型负责生成三维骨架，蛋白大模型负责反推对应的序列，再通过结构预测工具进行闭环验证。

可以说，当前主流的蛋白设计流程已经形成了一个“生成—预测—筛选”的闭环，而蛋白大模型正是这个闭环中连接序列空间与功能空间的桥梁。

三、蛋白大模型的产业化挑战：从模型到工作流

尽管模型能力持续提升，但在真实的研发场景中，蛋白大模型的价值并非孤立存在。一个常见的误解是：有了强大的生成模型，就能直接得到可用的蛋白质。然而，真实世界中的蛋白设计任务往往涉及复杂的需求拆解——用户需要的不只是一段序列，而是“能够在特定pH值和温度下稳定、对某靶点具有纳摩尔级亲和力、同时避免非特异性结合”的解决方案。

这要求模型不仅要会生成，还要能够理解任务的边界条件、调用合适的预测工具、筛选候选序列、并与实验验证形成闭环。换句话说，蛋白大模型需要从一个“生成器”进化成一个“工作流引擎”。

正是在这一背景下，智能体（Agent）的概念开始进入蛋白设计领域。智能体以大语言模型为“大脑”，负责理解用户意图、拆解任务、调度底层工具，并处理结果反馈。当蛋白大模型作为智能体的核心组件之一被集成进来，整个研发流程的交互方式和效率都发生了变化。

Workflow for Protein Design

四、晓鹜智能体：蛋白大模型能力的一种整合模式

2026年4月，天鹜科技发布了对话式蛋白质设计智能体MatwingsVenus™（晓鹜™）。如果将其放在蛋白大模型的发展脉络中来看，MatwingsVenus™（晓鹜™）可以理解为一个将蛋白大模型的生成能力与更广泛的工作流能力进行整合。

MatwingsVenus™（晓鹜™）集成了200余个蛋白质设计工具、50多位平台认证专家、30多个专家调优的Skills，背后依托百亿级的真实标签蛋白质数据库。用户通过自然语言输入任务目标后，系统会自动拆解任务，调用相应的设计、预测、分析和筛选能力，完成从深度研究、挖酶、定向进化到从头设计等全流程工作。

MatwingsVenus Model of protein

更值得关注的是，MatwingsVenus™（晓鹜™）打通云端设计与物理实验之间的协同通道。设计完成后，平台通过自主构建的通讯机制，将结果自动导入质粒订购与实验编排流程，自动衔接后续实验任务，驱动机器人完成样品制备、蛋白纯化和功能检测，最终将实验结果回流至下一轮AI设计，形成“计算驱动湿实验、湿实验反哺计算”的干湿闭环。这意味着蛋白设计不再是一次性的“输出序列—等待验证”的线性过程，而是一个可以持续迭代、自我优化的系统。

从天鹜科技创始人洪亮的表述来看，MatwingsVenus™（晓鹜™）的定位并非某个单一的蛋白大模型，而是一个一站式的平台——用户可以在其中搜索文献、专利和市场信息，找到大致的研究方向，再用设计技术去实现。从这个意义上说，蛋白大模型是MatwingsVenus™（晓鹜™）的能力底座之一，而MatwingsVenus™（晓鹜™）则是将这种底座能力转化为可对话、可闭环的研发工具。

五、蛋白大模型与智能体的融合

蛋白大模型从“理解”走向“生成”的技术演进，正在为蛋白质研发打开新的可能性空间。然而，模型能力的提升只是第一步。如何让这些能力在真实、复杂的研发场景中被高效、便捷地调用，是产业界需要回答的下一个问题。

天鹜科技首席科学家洪亮曾在多个场合分享过他对这一问题的思考。在他看来，人工智能正在将蛋白质工程从一门高度依赖经验和运气的复杂“学科”，转变为可预测、高效率的“工程”。这一转变的核心，在于将底层的蛋白大模型能力与上层的工作流组织能力相结合——让AI不仅能够“设计”，还能够“理解用户意图”“调度合适工具”“与实验数据形成闭环”。

正是基于这一思路，天鹜科技推出了对话式蛋白质设计智能体MatwingsVenus™（晓鹜™）。洪亮将AI的角色概括为三个阶段：从“过去式”的辅助专家工具，演进为“进行时”的普惠平台，并终将成为能够自主提出科学假设的“AI共研科学家”（AI Co-scientist）。从这一框架来看，MatwingsVenus™（晓鹜™）将蛋白大模型的生成能力、分析能力与自动化实验能力整合为一个连贯、易用的工作流。

当模型能力与工作流能力真正形成合力，蛋白质设计的门槛有望被显著拉低，研发闭环的效率也将得到系统性提升。这是一个值得持续观察和期待的领域。