• 我的订阅
  • 科技

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

类别:科技 发布时间:2024-11-07 09:50:00 来源:量子位

生命科学领域,已经率先进入到基础模型时代!

今年,化学诺贝尔奖授予了AlphaFold,AI+Science受到空前的关注。人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此巨大的行业潜力。

就在当下,在第三届中国生物计算大会上,全球规模最大的生命科学基础模型横空出世——

xTrimo V3,参数规模高达2100亿,覆盖蛋白质、DNA、RNA、细胞等七大主流模态。背后玩家正是来自李彦宏孵化创办的百图生科。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

与应用于其他行业的基础模型有所不同,他们解码的是生命语言,而非自然语言,意味着不仅能处理复杂的生物序列,为药物研发、精准医疗等领域助力;还能开启更多的前沿突破,比如在基因进化、合成生物学、设计/创造生命等方面创造价值……

这样一个与我们每个人都息息相关的时代课题,如今竟然先于其他垂直领域,迎来了首个千亿基础模型。

并且,正像当时OpenAI推出提供免费Token一样,它也限时提供免费Tokens,今年年底之前成功注册的用户,即可获得2000 credits。

什么概念呢?这相当于用户可以有机会完成1300万氨基酸Tokens的微调训练任务。

来看看究竟这个微观世界的基础模型到底是怎么一回事?

大模型时代下的生命语言解码

在第三届生物计算大会上,大模型是整场大会出现的关键词,而大模型在生命科学领域应用的范式,也成为各个领域专家的共识——

生命科学领域有着明显的特点,实验验证过的有标签的数据很贵很少,已有的数据又是不同场景,很难用来直接训练任务模型。但它却拥有着海量未标注数据,像基因组数据,蛋白质序列等,这些数据非常适合用来做预训练基础大模型。

大模型基于这些数据预训练之后,再结合少数标注过生物实验室数据,学习到对生命系统深层次表征,进而完成像蛋白质结构预测、基因序列分类等下游任务。

而百图生科xTrimo系列模型,正是其中最具代表性的范式实践。

此次大会上,百图生科xTrimo系列模型全面升级到V3版本,有着三大技术亮点值得关注。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

首先从大模型基础属性维度来看,这是目前全球规模最大的生命科学基础大模型,总体参数规模达到了2100亿。

参数规模越大,意味着蕴含更广泛的知识和拥有更强的泛化能力,因此在各种关键问题和任务的解决上有更强的性能和准确性。

换句话说,大模型时代Scaling Laws,其实在生命科学领域也同样奏效。

截至目前,xTrimo基础大模型平台在200个任务模型达到SOTA水平,并利用这些任务模型实现了从头设计全新蛋白质、靶点发现等创新生物项目的突破。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

该平台已助力开发了20余种前沿抗体和酶,实现10余个创新靶点及靶点组合的挖掘,并都经过实验验证,进入到临床前研发等后续阶段。

再从应用维度来看,此次基础大模型的发布是个模态全家桶,这是解决行业问题的新利器。

此次发布的xTrimo V3,覆盖DNA、RNA、蛋白质、细胞、小分子、生物视觉和生物知识文本等生命科学7个主流模态。

在上一版本已有蛋白质和细胞两大领域基础之上,拓展到了基因组学、转录组学、细胞复杂任务、影像分析和文本分析等领域,从而支持从分子早期研发到生产放大再到后期实验分析的全流程AI建模需求。

而除了实现整个探索过程的AI赋能,在一些场景下还会诞生全新的解决路径。这是因为多模态的覆盖,让大模型跨模态协作成为了可能。

百图生科技术副总裁张晓明列举了靶点发现这一例子。

现在在细胞尺度多模态大模型视角上,靶点发现也有了新探索,可以先对未扰动的细胞进行蛋白质和细胞的两种模态的表征,同时扰动action可以基于生物基因注释的文本模态生成扰动的编码,在图模型中预测扰动后表达量的变化以及推荐潜在的靶点,最后再通过细胞生物视觉的模型辅助做细胞功能的验证。

这是一个包括蛋白、细胞、文本和视觉四个模态的协作典型场景,在效果和效率上都有显著的提升。

而具体到各个模态的部署,我们也能看到很强的应用属性,为解决问题而生。

比如首个引入MoE架构的蛋白质大模型,参数达到千亿规模。

我们都知道,通用场景下MoE架构有利于垂直细分领域的处理,同样在蛋白质领域也存在这样的情况,比如像抗体抗原、蛋白酶等,这样一来在各种具体下游任务下,实现更好的性能和准确率。

还有像DNA大模型序列长度跃升至128K,可以更好的捕获远端调控信息,实现了超长序列解码生命的可能性。

这有点类似于通用大模型具备了长文本读取能力,由此拓展了大模型能力的边界,更多场景得到释放,比如总结报告、故事创作,解放人们的生产力。

最后,再从整个行业生态来看,百图生科已经占好生命科学AI模型提供商这一生态位——

一边是专业严谨、有着自己独特语言的科学行业,还有大量的知识空间等待人类去探索。一边是价值逐渐明晰、势要重塑一切的大模型范式。百图生科要做的正是他们的连接器。

此次除了基础大模型的发布,他们还建设了个一站式模型平台,相当于生命科学领域的大模型基础设施。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

训练端,他们给出生物多模态的统一训练框架,从跨模态预训练、到下游任务的微调都可以完成。

而在推理端,他们为该领域量身定制地打造了生物与AI融合的计算引擎。

这个值得说道说道。因为在我们日常大模型语境中,可能只需要针对AI模型本身进行推理优化,就能在性能和成本上取得很好的效果。但在生物计算实际应用场景中,模型运行20分钟,其中推理仅占1分钟,其余时间都用于执行生物计算工具。

因此要打造推理引擎,需要将生物HPC优化和AI模型推理优化都要兼顾到,以及让他们在流水线上并行运行起来。据介绍,这在多个场景实现十倍以上推理性能的提升。

此外,还配备了系列工具链:包含面向多种数据场景和用户需求的Model Builder模块,支持模型管理和组装的Model Hub模块,以及加速模型调用和物理计算的Model Booster模块等。

而基于过去四年行业探索经验,他们也系统梳理出了两大行业解决方案:药物研发、生物制造,为合作伙伴提供全方位的AI模型服务,加速大模型的应用。

以药物研发为例,他们就能客户定制化构建模型、也能支持像蛋白设计这样的服务。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

比如他们就利用亲和力模型设计出多个亲和力梯度的抗体,并定制AND GATE算法,组合双抗实现靶向杀伤肿瘤细胞。通过高通量亲和力检测和 100+ 复杂构型双抗的表达与验证,最终交付了具有更佳治疗窗口的双抗。

过去四年间,百图生科的全球用户已积累超过300家,包括跨国药企、产业巨头、大型CRO、明星BioTech、科研机构等,总订单超20亿美元,可以说初步完成了技术和商业验证的闭环,实现产业的初步积累。

如今有了强大的基础模型底座,他们的目标行业也指向了更广泛的领域,包括生物医药、生物制造、科研教育等。

这其实也是百图生科选择这一生态位的具象展现,那就是链接起更多的生态伙伴参与到大模型应用的进程中。

如今生命科学领域大模型正在加速落地应用,但与此同时挑战也同样艰巨,需要生态伙伴携手来解决。

CEO刘维就举了个例子,其数字化和智能化在很多方面尚未实现。诸多研发工作仍然主要以所见即所得的方式进行——

仍然以专家经验和人类先验假设为基础进行实验验证假设,或者以在自然界中发现然后进行实验改造为主。

而只有越来越多的企业完成大模型的赋能,才能带动整个行业的数字化智能化。

Foundation Model+Science正在到来

借着百图生科生命科学基础大模型的发布,也是时候对「大模型如何赋能生命科学领域」做个阶段性梳理。

首先,跟其他行业一样,生命科学领域正迎来全行业的重塑,甚至比其他领域更快。

仅过去一年时间,传统药企巨头拥抱AI,像辉瑞、礼来等全球药企巨头任命首席AI官;科技巨头纷纷出手布局,诸如谷歌Meta英伟达也早已相关探索。还有像赛诺菲,这种全球TOP10药企愿意砸超10亿美金与百图生科共同打造AI模型。

各种生命科学大模型也纷纷被顶刊所接收,比如像百图生科此前发布的单细胞大模型、千亿参数蛋白大模型等工作就多次登上Nature子刊封面和学术顶会。相较于其他领域,这么一个古老的领域的发展速度,直接来了个弯道超车。

而从时间维度来看,计算对生命科学的赋能,经历从单模态单尺度到多模态多尺度的赋能。而在大模型语境下,就是从“AI+”到“大模型+”的时代,如今AI在生命科学里的创新应用正在迎来「寒武纪爆发」临界点。

一切以AlphaFold为节点。

传统依靠实验室工具和分析手段的方式,价格高昂耗时也长,无法充分发挥数据背后的价值。

随着AI深度学习的出现,这个问题迎来了转机。DeepMind从人类已确定的17万种蛋白质序列库中训练学习得到AlphaFold,实现了之前远超其他所有团队的准确率,开辟了“先假设-再验证-最后优化假设”的干湿实验循环闭环。

这时候,生命科学领域迎来了他们自己的AI1.0时刻。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

不过当时还只是聚焦于单链蛋白质单一模态,预测准确率还有大量的提升空间,海量的生物数据还没有被充分挖掘。

而随着自监督范式Transformer架构、扩散模型等进展的出现,让海量各种模态的数据处理、跨模态多尺度协作处理成为了可能,更多潜在的下游场景被实现,也就是所谓AI2.0时刻。

就像最新的AlphaFold3,实现了从单链蛋白质结构预测到所有生命分子的结构和相互作用的跨越。

其次,大模型赋能生命科学不仅在降本增效,还在于创新创造。

大模型对千行百业的赋能核心就在于降本增效,同样在生命科学领域,大模型可以快速处理和分析大量的生物数据,帮助科研人员更高效地筛选潜在药物靶点、设计药物分子以及预测药物效果,从而在一定程度上降低研发成本、提高研发效率。

不过这只是大模型所带来的最基本价值。创新创造才是大模型赋能生命科学的核心价值。

生命科学的技术壁垒很大程度上源于生命本质信息的高度复杂性,而这些信息往往隐藏在生命语言中。因此相比于常规自然语言模型,生命科学大模型往往肩负着更为重大的使命,那就是深入到生物进化、基因序列等生命领域的核心挑战。大模型就是像是一把钥匙,打开了一扇通往生命奥秘深处的新大门。

而一旦实现生物数据和序列的解码,就给当前一些重大难题的解决带来了可能性。比如精准医疗/个性化医疗。

而在基因组学、遗传病预测和精准医疗等领域,信息的准确性至关重要。但传统的方法常常将DNA切割成较小的片段进行分析,导致关键信息的丢失。

但现在百图生科模型所实现的DNA超长序列,就能完整保留所有基因信息。这让精准的基因分析成为可能,有助于制定出最适合患者个体的治疗方案。

例如,在癌症治疗中,完整的基因序列信息可以帮助确定癌细胞中特定的基因突变,从而为靶向治疗提供精确的靶点,提高治疗效果。

大模型带来的除了数据处理能力,还有强大的泛化能力,给行业问题解决带来全新的思路。

生命语言远比自然语言复杂,模态之间存在清晰的转化和层级关系。比如DNA、RNA、蛋白质之间的中心法则;细胞图像,细胞组学,细胞基因表达,功能注释文本之间对于细胞的联合表征;从单细胞、多细胞到构成组织。

因此大模型能做的就不仅对现有生物数据的简单解析,更重要的是能够推断未知问题。

比如预测生物结构背后的功能——

可以预测某种新型蛋白质的功能,进而为设计全新的药物或者生物技术提供可能,而这是传统研究方法很难做到的创新突破。

还有像药物发现,以往的研发可能更多地依赖于既有经验和有限的实验结果,但大模型可以通过对大量生命数据的学习和分析,提出以前未曾想到的药物靶点或者研发方向。

而拥有了预见生命科学未知领域的 “慧眼”之后,也就为合成生物学,或者更为广泛的生物制造,带来了可能性。

比如在酶的设计和菌种改造方面,AI模型通过学习现有的生物数据,生成新的酶序列,并预测其催化功能。通过这种方式加速了生物制造中的酶催化过程,显著提高了生产效率,并降低了制造成本。

再往前一步,整个工业制造领域,包括农业、食品、化工、材料、能源等行业都能被赋能覆盖。

从理解生命到预测生命再到设计、创造生命,这也是大模型为生命科学带来创新创造价值的重要体现。

它从根本上改变了生命科学的研究路径和思维方式,推动生命科学朝着更深入、更具前瞻性的方向发展。

相对于其他行业,在生命科学领域的应用价值更大、前景更高,也就更是一件长期主义的事情了。

这需要生态合作,共同推动产业发展。更需要像百图生科这样的玩家站出来提供基础服务。

现在,百图生科,迈出了第一步。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-07 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

追问|浙大张国捷团队重构鸟类生命之树,提现生鸟类分类新方案
...了什么事。”浙江大学生命演化研究中心张国捷教授团队重构并革新了现生鸟类的系统发育树,厘清了现生鸟类各类群之间的关系,解决了鸟类类群关系长达一个多世纪的争议。2024年4月2日
2024-04-02 10:41:00
...重庆2月16日电 (记者 钟旖)记者16日从西南大学获悉,该校生命科学学院教育部重点实验室徐洛浩教授课题组日前在《美国科学院院刊》(PNAS)发表题为《家鸡基因组完成图的演化
2023-02-16 20:58:00
...旦大学计算机科学技术学院教授颜波带领的团队迁移到了生命科学实验室里的常用研究工具“荧光显微镜”上。他们发明的跨任务、多维度图像增强基础AI模型(UniFMIR),实现了对现有
2024-04-13 15:51:00
“ChatGPT们”改变新药研发,高质量数据哪里来?
图片来源@视觉中国文|硅谷101,作者|泓君 肖阳生命科学走出一百年黑暗探索95年前,细菌学家亚历山大·弗莱明在偶然中发现了青霉素,可谓是人类医药史上最重大的发现之一。虽然生命科
2023-02-22 08:00:00
AI蛋白质折叠:在生命宇宙中漫游,远眺生物经济的流光
...分子层面认识和研究生命,除了DNA的秘密被揭晓,推动了生命科学领域的一次重大飞跃外,蛋白质作为生命的物质基础、生命活动的主要承担者的重要性也逐渐为科学家所发掘。而有关蛋白质的
2024-09-18 15:04:00
DNA双螺旋发现70年:从认识基因走向合成生命
...保存和传递信息的。在此基础上,分子生物学诞生,现代生命科学的“帷幕”也就此正式拉开。过去70年间,人类认识到生命最根本的基石是四个“碱基字母”及其相应的“书写规则”,并由此打
2023-02-25 05:46:00
...质可以被精准“编程”的时代,从医药研发到环境保护,生命科学将向前迈出更大的步伐。
2025-05-17 06:02:00
模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
...元报道编辑:乔杨 好困【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3
2024-06-27 09:31:00
... V3、以2100亿参数量刷新纪录之后,近日,百图生科发布AI生命科学基础大模型驱动的生成式发现系统(下称“发现系统”)。与会专家在发布会上围绕让AI真正落地生命科学、实现从
2025-05-06 19:36:00
更多关于科技的资讯:
南报网讯(通讯员胡晓靓记者夏思宇)走进南京绿叶制药有限公司制冷站,冷水机组、冷冻水泵、冷却水泵、冷却塔等设备稳定运转,维持药品生产GMP车间的恒温恒湿环境
2025-10-17 08:13:00
聚焦2025中国国际数字经济博览会•现场|打卡数字展馆 体验未来生活
10月16日,2025中国国际数字经济博览会展区工作人员在调试机器人。 河北日报记者 史晟全摄借助VR设备沉浸在古城往事中
2025-10-17 08:23:00
我从事科技研发工作,出生在一个三代从商的家庭。我的祖父是一名民营企业家,在枣强县这片土地上开启了玻璃钢产业创业之路;我的父亲骑着一辆摩托车闯荡天津
2025-10-17 09:11:00
博物馆“抢票”成第一关,中轴线打卡、汉服妆造让历史游玩出沉浸新花样……音乐节、演唱会与国际顶级体育赛事一票难求,“为一场演出赴一座城”成为常态
2025-10-17 09:15:00
新闻纵深·县域特色产业新力量|借力京津,机器人产业双链融合
阅读提示唐山市高新技术产业开发区在机器人新赛道上频频发力,已形成以工业机器人为引领、特种机器人为亮点、服务机器人为特色
2025-10-17 09:19:00
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新最近在金华街头,不少人注意到一组频繁穿梭的出租车广告:“住旭客民宿
2025-10-17 09:25:00
AI EMPOWERS ALL丨神州泰岳亮相中国移动全球合作伙伴大会
碳硅共生,合创AI+时代——第13届中国移动全球合作伙伴大会于今日在广州保利世贸博览馆盛大启幕。神州泰岳作为中国移动长期重要合作伙伴
2025-10-17 09:25:00
内容觉醒·生态共创 | 2025瑞派短视频大赛职人组培训圆满落幕
金秋时节,硕果盈枝。由瑞派股份市场营销中心倾力打造的“2025年度瑞派短视频大赛职人专属赛道培训”在热烈氛围中圆满收官
2025-10-17 09:55:00
市场销售疲软,高档卷烟销售增速放缓,中低档卷烟却因消费需求旺盛出现供应紧张的问题,这是当前卷烟销售工作面临的瓶颈。受计划经济体制影响
2025-10-17 10:02:00
浪潮科技三款平台产品或升级认可
近日,山东省工业和信息化厅公布了拟入选第九批山东省首版次高端软件产品公示名单。浪潮科技研发的“焱宇行业大模型服务平台 V1
2025-10-17 10:03:00
旅服会媒体开放日:全产业链盛会引关注
16日,由中国旅行社协会、中国旅游集团主办的2025首届国际旅行服务大会暨交易展(以下简称“旅服会”)迎来媒体开放日。来自30余家主流媒体
2025-10-17 10:04:00
把听劝搬到线下!海尔智家双11邀500+达人发起智慧科技众测
今年双11,海尔智家把“听劝”从线上搬到了线下,在黄岛东方影都打造了一场规模空前的“智慧科技众测”现场,让“用户声音”与“产品研发”真正零距离对话
2025-10-17 10:07:00
微光照公信:32 名贵州师生北京研学,解码体彩阳光密码
多彩贵州网讯 10月13日,为期三天的“2025微光行动·希望工程”体彩旭日研学实践活动正式拉开帷幕。来自贵州民族大学
2025-10-17 10:15:00
“绽放杯”区域赛获佳绩,5G融合应用助力产业智变升级
10月15日,第八届“绽放杯”5G应用征集大赛山东区域赛决赛及颁奖典礼在济宁落下帷幕。本次大赛以“5G扬帆再启航,智绘齐鲁新篇章”为主题
2025-10-17 10:34:00
小米SU7事故后雷军首度发声!呼吁共同抵制网络水军、黑公关
据澎湃新闻消息,雷军在小米汽车成都事故后首次公开露面演讲。10月16日,世界智能网联汽车大会,小米CEO雷军在演讲中表示
2025-10-17 10:34:00