蛋白质序列挖掘到底怎么“挖”？我们试了这家公司的对话式智能体 | MatwingsVenus™（晓鹜™）

一、重新定义“序列挖掘”——当研发从大海捞针走向精准狙击

一家做塑料降解酶的初创公司，在实验室里卡了整整十个月。团队从文献里找到了一个据说有潜力的天然酶序列，把它转进自己的表达系统，活性却一直达不到工业要求。他们试了定向进化，筛选了几千个突变体，最高的一轮也只提升了不到两倍。项目眼看要黄，团队里一个实习生提议：要不先用AI扫一圈已知的宏基因组序列？负责人苦笑，连说算了——扫一圈容易，扫完之后呢？几千条候选序列哪条值得做湿实验？谁来判断？

Metagenomic sequence generation process

这不是段子，是蛋白质研发领域每天都在发生的真实困局。

问题从来不是序列不够多。公共数据库里的蛋白质序列已经数以亿计，还在以指数级增长。真正的难点是：如何在茫茫序列之海中，高效、准确地挖掘出那几条真正能解决实际问题的“黄金序列”？过去靠专家经验，靠漫长的试错，靠运气。现在，天鹜科技推出了一个叫MatwingsVenus™（晓鹜™）智能体的工具，试图把这件事变成一种更像日常对话的能力。

二、什么是蛋白质序列挖掘？

通俗说，就是在海量氨基酸序列里，根据特定的功能需求（如耐高温、高催化活性、特异性结合等），快速定位或从头设计出符合条件的候选序列。

这个概念诞生于后基因组时代——基因测序技术让蛋白质序列数据爆炸，但绝大多数序列的功能未知。传统挖掘主要依赖同源性搜索：如果A序列和已知功能的B序列长得像，就推断A有类似功能。但这种方法对进化上亲缘较远的“远缘蛋白”很容易漏掉，而且需要大量人工调试和湿实验验证，周期以“年”为单位，成本高昂。

三个绕不开的瓶颈：

效率：依赖专家经验和试错，周期长、成本高；

数据：序列数据海量，但有功能标注的序列极少；

工具：现有计算工具分散，分析、预测、验证要切换多个平台

AI驱动的序列挖掘正在改变这个局面。通过学习海量无标注序列，蛋白质大语言模型能自动提取深层特征，高效处理大规模数据，甚至发现传统方法难以企及的“暗物质”蛋白。

典型应用场景：

工业催化：寻找能在强酸强碱或高温下稳定工作的酶；

生物医药：设计精准结合特定靶点的抗体或结合分子；

合成生物学：挖掘具备新功能的天然蛋白元件。

三、技术破局：晓鹜智能体凭什么不一样

MatwingsVenus

天鹜科技发布了对话式蛋白质研发智能体MatwingsVenus™（晓鹜™）。首席科学家洪亮指出，AI正在将蛋白质工程从一门依赖经验和运气的复杂“科学”，转变为可预测、高效率的“工程”。

这种转变的底层支撑，是一套包含近150亿条序列的蛋白质数据集，其中近65亿条带有功能标签——标注了蛋白质在特定温度、酸碱度、压力下的性能表现。作为对比，传统方法能依赖的带标注序列可能只有几百万条，且来源分散。

模型通过学习这些序列与功能之间的映射关系，掌握了不同蛋白质的“功能特征”，从而能够识别并设计出满足目标需求的序列。

“对话式”交互：让序列挖掘像聊天一样简单

MatwingsVenus™（晓鹜™）智能体的核心设计理念：你只需像与真人对话一样，通过自然语言提出研发需求（如“给我设计一条能在pH 13条件下稳定工作的蛋白酶序列”），系统就会自动拆解任务，完成从文献查阅、专利检索到蛋白质序列挖掘与设计的全流程。

平台集成200+专业蛋白质设计工具、50+认证专家以及30+各领域专家调优的Skills，全部通过AI代理按需调用。

“干湿闭环”：序列挖掘不是终点，落地才是

MatwingsVenus™（晓鹜™）智能体最关键的设计在于“对话式干湿闭环”。AI代理完成序列设计后，平台通过自主构建的通讯机制将结果自动衔接至自动化共享实验室，驱动机器人完成样品制备、蛋白纯化和功能检测，实验数据回流至AI模型形成下一轮迭代优化。

这种“设计即验证、验证即迭代”的模式，让序列挖掘不再是停留在数字世界的“纸上推演”，而是真正打通了从计算到物理实验的完整链条。

四、实战验证：晓鹜智能体在序列挖掘中的真实案例

案例一：免疫调控受体——从零开始挖出“无中生有”的结合分子

项目背景与挑战：这是一个极具挑战性的创新靶点——缺乏同类药物分子参考，靶点表面以极性区域为主、缺少典型高成药性结合热点，且天然配体已具备纳米级超高亲和力。在这样的条件下从头设计全新的结合分子（binder），难度极高。

晓鹜如何挖掘：依托MatwingsVenus™（晓鹜™）平台，以靶点结构与功能需求为输入，由代理自动完成骨架筛选、界面设计、序列优化、成药性预判等全环节计算，快速生成高质量结合分子序列。

结果验证：经自动化实验平台制备的样品在体外细胞活性检测中表现优异，数十个分子具备明确的细胞阻断活性，兼具功能抑制与高亲和力潜力——完成了从头设计结合分子的全流程验证。

AI De Novo Design

案例二：工业酶项目——从文献中“挖”出来的产业化落地

天鹜科技采用“AI定向进化”与“AI挖酶”两大策略，已在极端耐受性（耐高温、耐强酸强碱）方面积累了丰富的成功案例。例如，一款塑料降解酶的挖掘与优化仅用数月完成，突破了传统“大海捞针”式的低效模式。

截至目前，天鹜已成功交付30余款蛋白质项目，覆盖创新药、体外诊断、营养保健、食品饮料、美容护肤、生物能源等多个领域，实现近10款产品的产业化落地。

五、从“大机构专属”到“个人可用”：当蛋白质序列挖掘能力“被共享”

过去，蛋白质序列挖掘是一种高度集中的能力——需要跨学科团队、昂贵的实验设备和长期的资金投入。MatwingsVenus™（晓鹜™）智能体将这种能力转化为个人用户也可调用的基础设施，推动蛋白质研发从“大平台驱动”走向“个人可用”。

正如项目研发负责人谭扬所说，“AI带来的一个重要变化，是让一些过去高度稀缺的能力，开始以更普惠的方式被调用”。

对中小研发团队和创业者的实际价值

降低准入门槛：不需要完整的蛋白质工程团队也能开展工作

缩短研发周期：从数月到数年的传统周期压缩至数周甚至数天。

降低试错成本：AI代理先进行大规模虚拟筛选，只有最有希望的候选序列才进入湿实验验证。

六、展望与结语

天鹜科技正在持续迭代“AI+自动化实验”平台。首席科学家洪亮提出了“AI共研科学家”的愿景：未来的AI将不仅辅助专家设计，还能主动提出科学假设并设计验证路径，成为与人类科学家协同创新的主体。

蛋白质序列挖掘的效率提升，本质上是为整个生物经济提供更快的“研发引擎”——从新药发现到绿色制造，从新型材料到功能食品，每一个依赖蛋白质技术的赛道都将受益。

你觉得AI在蛋白质设计领域，目前最大的价值是“提速”还是“发现人类想不到的解法”？