蛋白质序列挖掘到底怎么“挖”?我们试了这家公司的对话式智能体
发布于 May 21, 2026

一、重新定义“序列挖掘”——当研发从大海捞针走向精准狙击
一家做塑料降解酶的初创公司,在实验室里卡了整整十个月。团队从文献里找到了一个据说有潜力的天然酶序列,把它转进自己的表达系统,活性却一直达不到工业要求。他们试了定向进化,筛选了几千个突变体,最高的一轮也只提升了不到两倍。项目眼看要黄,团队里一个实习生提议:要不先用AI扫一圈已知的宏基因组序列?负责人苦笑,连说算了——扫一圈容易,扫完之后呢?几千条候选序列哪条值得做湿实验?谁来判断?

Metagenomic sequence generation process
这不是段子,是蛋白质研发领域每天都在发生的真实困局。
问题从来不是序列不够多。公共数据库里的蛋白质序列已经数以亿计,还在以指数级增长。真正的难点是:如何在茫茫序列之海中,高效、准确地挖掘出那几条真正能解决实际问题的“黄金序列”?过去靠专家经验,靠漫长的试错,靠运气。现在,天鹜科技推出了一个叫MatwingsVenus™(晓鹜™)智能体的工具,试图把这件事变成一种更像日常对话的能力。
二、什么是蛋白质序列挖掘?
通俗说,就是在海量氨基酸序列里,根据特定的功能需求(如耐高温、高催化活性、特异性结合等),快速定位或从头设计出符合条件的候选序列。
这个概念诞生于后基因组时代——基因测序技术让蛋白质序列数据爆炸,但绝大多数序列的功能未知。传统挖掘主要依赖同源性搜索:如果A序列和已知功能的B序列长得像,就推断A有类似功能。但这种方法对进化上亲缘较远的“远缘蛋白”很容易漏掉,而且需要大量人工调试和湿实验验证,周期以“年”为单位,成本高昂。
三个绕不开的瓶颈:
效率:依赖专家经验和试错,周期长、成本高;
数据:序列数据海量,但有功能标注的序列极少;
工具:现有计算工具分散,分析、预测、验证要切换多个平台
AI驱动的序列挖掘正在改变这个局面。通过学习海量无标注序列,蛋白质大语言模型能自动提取深层特征,高效处理大规模数据,甚至发现传统方法难以企及的“暗物质”蛋白。
典型应用场景:
工业催化:寻找能在强酸强碱或高温下稳定工作的酶;
生物医药:设计精准结合特定靶点的抗体或结合分子;
合成生物学:挖掘具备新功能的天然蛋白元件。
三、技术破局:晓鹜智能体凭什么不一样

MatwingsVenus
天鹜科技发布了对话式蛋白质研发智能体MatwingsVenus™(晓鹜™)。首席科学家洪亮指出,AI正在将蛋白质工程从一门依赖经验和运气的复杂“科学”,转变为可预测、高效率的“工程”。
这种转变的底层支撑,是一套包含近150亿条序列的蛋白质数据集,其中近65亿条带有功能标签——标注了蛋白质在特定温度、酸碱度、压力下的性能表现。作为对比,传统方法能依赖的带标注序列可能只有几百万条,且来源分散。
模型通过学习这些序列与功能之间的映射关系,掌握了不同蛋白质的“功能特征”,从而能够识别并设计出满足目标需求的序列。
“对话式”交互:让序列挖掘像聊天一样简单
MatwingsVenus™(晓鹜™)智能体的核心设计理念:你只需像与真人对话一样,通过自然语言提出研发需求(如“给我设计一条能在pH 13条件下稳定工作的蛋白酶序列”),系统就会自动拆解任务,完成从文献查阅、专利检索到蛋白质序列挖掘与设计的全流程。
平台集成200+专业蛋白质设计工具、50+认证专家以及30+各领域专家调优的Skills,全部通过AI代理按需调用。
“干湿闭环”:序列挖掘不是终点,落地才是
MatwingsVenus™(晓鹜™)智能体最关键的设计在于“对话式干湿闭环”。AI代理完成序列设计后,平台通过自主构建的通讯机制将结果自动衔接至自动化共享实验室,驱动机器人完成样品制备、蛋白纯化和功能检测,实验数据回流至AI模型形成下一轮迭代优化。
这种“设计即验证、验证即迭代”的模式,让序列挖掘不再是停留在数字世界的“纸上推演”,而是真正打通了从计算到物理实验的完整链条。
四、实战验证:晓鹜智能体在序列挖掘中的真实案例
案例一:免疫调控受体——从零开始挖出“无中生有”的结合分子
项目背景与挑战:这是一个极具挑战性的创新靶点——缺乏同类药物分子参考,靶点表面以极性区域为主、缺少典型高成药性结合热点,且天然配体已具备纳米级超高亲和力。在这样的条件下从头设计全新的结合分子(binder),难度极高。
晓鹜如何挖掘:依托MatwingsVenus™(晓鹜™)平台,以靶点结构与功能需求为输入,由代理自动完成骨架筛选、界面设计、序列优化、成药性预判等全环节计算,快速生成高质量结合分子序列。
结果验证:经自动化实验平台制备的样品在体外细胞活性检测中表现优异,数十个分子具备明确的细胞阻断活性,兼具功能抑制与高亲和力潜力——完成了从头设计结合分子的全流程验证。

AI De Novo Design
案例二:工业酶项目——从文献中“挖”出来的产业化落地
天鹜科技采用“AI定向进化”与“AI挖酶”两大策略,已在极端耐受性(耐高温、耐强酸强碱)方面积累了丰富的成功案例。例如,一款塑料降解酶的挖掘与优化仅用数月完成,突破了传统“大海捞针”式的低效模式。
截至目前,天鹜已成功交付30余款蛋白质项目,覆盖创新药、体外诊断、营养保健、食品饮料、美容护肤、生物能源等多个领域,实现近10款产品的产业化落地。
五、从“大机构专属”到“个人可用”:当蛋白质序列挖掘能力“被共享”

过去,蛋白质序列挖掘是一种高度集中的能力——需要跨学科团队、昂贵的实验设备和长期的资金投入。MatwingsVenus™(晓鹜™)智能体将这种能力转化为个人用户也可调用的基础设施,推动蛋白质研发从“大平台驱动”走向“个人可用”。
正如项目研发负责人谭扬所说,“AI带来的一个重要变化,是让一些过去高度稀缺的能力,开始以更普惠的方式被调用”。
对中小研发团队和创业者的实际价值
降低准入门槛:不需要完整的蛋白质工程团队也能开展工作
缩短研发周期:从数月到数年的传统周期压缩至数周甚至数天。
降低试错成本:AI代理先进行大规模虚拟筛选,只有最有希望的候选序列才进入湿实验验证。
六、展望与结语
天鹜科技正在持续迭代“AI+自动化实验”平台。首席科学家洪亮提出了“AI共研科学家”的愿景:未来的AI将不仅辅助专家设计,还能主动提出科学假设并设计验证路径,成为与人类科学家协同创新的主体。
蛋白质序列挖掘的效率提升,本质上是为整个生物经济提供更快的“研发引擎”——从新药发现到绿色制造,从新型材料到功能食品,每一个依赖蛋白质技术的赛道都将受益。
你觉得AI在蛋白质设计领域,目前最大的价值是“提速”还是“发现人类想不到的解法”?