• 我的订阅
  • 科技

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

类别:科技 发布时间:2024-11-07 09:50:00 来源:量子位

生命科学领域,已经率先进入到基础模型时代!

今年,化学诺贝尔奖授予了AlphaFold,AI+Science受到空前的关注。人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此巨大的行业潜力。

就在当下,在第三届中国生物计算大会上,全球规模最大的生命科学基础模型横空出世——

xTrimo V3,参数规模高达2100亿,覆盖蛋白质、DNA、RNA、细胞等七大主流模态。背后玩家正是来自李彦宏孵化创办的百图生科。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

与应用于其他行业的基础模型有所不同,他们解码的是生命语言,而非自然语言,意味着不仅能处理复杂的生物序列,为药物研发、精准医疗等领域助力;还能开启更多的前沿突破,比如在基因进化、合成生物学、设计/创造生命等方面创造价值……

这样一个与我们每个人都息息相关的时代课题,如今竟然先于其他垂直领域,迎来了首个千亿基础模型。

并且,正像当时OpenAI推出提供免费Token一样,它也限时提供免费Tokens,今年年底之前成功注册的用户,即可获得2000 credits。

什么概念呢?这相当于用户可以有机会完成1300万氨基酸Tokens的微调训练任务。

来看看究竟这个微观世界的基础模型到底是怎么一回事?

大模型时代下的生命语言解码

在第三届生物计算大会上,大模型是整场大会出现的关键词,而大模型在生命科学领域应用的范式,也成为各个领域专家的共识——

生命科学领域有着明显的特点,实验验证过的有标签的数据很贵很少,已有的数据又是不同场景,很难用来直接训练任务模型。但它却拥有着海量未标注数据,像基因组数据,蛋白质序列等,这些数据非常适合用来做预训练基础大模型。

大模型基于这些数据预训练之后,再结合少数标注过生物实验室数据,学习到对生命系统深层次表征,进而完成像蛋白质结构预测、基因序列分类等下游任务。

而百图生科xTrimo系列模型,正是其中最具代表性的范式实践。

此次大会上,百图生科xTrimo系列模型全面升级到V3版本,有着三大技术亮点值得关注。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

首先从大模型基础属性维度来看,这是目前全球规模最大的生命科学基础大模型,总体参数规模达到了2100亿。

参数规模越大,意味着蕴含更广泛的知识和拥有更强的泛化能力,因此在各种关键问题和任务的解决上有更强的性能和准确性。

换句话说,大模型时代Scaling Laws,其实在生命科学领域也同样奏效。

截至目前,xTrimo基础大模型平台在200个任务模型达到SOTA水平,并利用这些任务模型实现了从头设计全新蛋白质、靶点发现等创新生物项目的突破。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

该平台已助力开发了20余种前沿抗体和酶,实现10余个创新靶点及靶点组合的挖掘,并都经过实验验证,进入到临床前研发等后续阶段。

再从应用维度来看,此次基础大模型的发布是个模态全家桶,这是解决行业问题的新利器。

此次发布的xTrimo V3,覆盖DNA、RNA、蛋白质、细胞、小分子、生物视觉和生物知识文本等生命科学7个主流模态。

在上一版本已有蛋白质和细胞两大领域基础之上,拓展到了基因组学、转录组学、细胞复杂任务、影像分析和文本分析等领域,从而支持从分子早期研发到生产放大再到后期实验分析的全流程AI建模需求。

而除了实现整个探索过程的AI赋能,在一些场景下还会诞生全新的解决路径。这是因为多模态的覆盖,让大模型跨模态协作成为了可能。

百图生科技术副总裁张晓明列举了靶点发现这一例子。

现在在细胞尺度多模态大模型视角上,靶点发现也有了新探索,可以先对未扰动的细胞进行蛋白质和细胞的两种模态的表征,同时扰动action可以基于生物基因注释的文本模态生成扰动的编码,在图模型中预测扰动后表达量的变化以及推荐潜在的靶点,最后再通过细胞生物视觉的模型辅助做细胞功能的验证。

这是一个包括蛋白、细胞、文本和视觉四个模态的协作典型场景,在效果和效率上都有显著的提升。

而具体到各个模态的部署,我们也能看到很强的应用属性,为解决问题而生。

比如首个引入MoE架构的蛋白质大模型,参数达到千亿规模。

我们都知道,通用场景下MoE架构有利于垂直细分领域的处理,同样在蛋白质领域也存在这样的情况,比如像抗体抗原、蛋白酶等,这样一来在各种具体下游任务下,实现更好的性能和准确率。

还有像DNA大模型序列长度跃升至128K,可以更好的捕获远端调控信息,实现了超长序列解码生命的可能性。

这有点类似于通用大模型具备了长文本读取能力,由此拓展了大模型能力的边界,更多场景得到释放,比如总结报告、故事创作,解放人们的生产力。

最后,再从整个行业生态来看,百图生科已经占好生命科学AI模型提供商这一生态位——

一边是专业严谨、有着自己独特语言的科学行业,还有大量的知识空间等待人类去探索。一边是价值逐渐明晰、势要重塑一切的大模型范式。百图生科要做的正是他们的连接器。

此次除了基础大模型的发布,他们还建设了个一站式模型平台,相当于生命科学领域的大模型基础设施。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

训练端,他们给出生物多模态的统一训练框架,从跨模态预训练、到下游任务的微调都可以完成。

而在推理端,他们为该领域量身定制地打造了生物与AI融合的计算引擎。

这个值得说道说道。因为在我们日常大模型语境中,可能只需要针对AI模型本身进行推理优化,就能在性能和成本上取得很好的效果。但在生物计算实际应用场景中,模型运行20分钟,其中推理仅占1分钟,其余时间都用于执行生物计算工具。

因此要打造推理引擎,需要将生物HPC优化和AI模型推理优化都要兼顾到,以及让他们在流水线上并行运行起来。据介绍,这在多个场景实现十倍以上推理性能的提升。

此外,还配备了系列工具链:包含面向多种数据场景和用户需求的Model Builder模块,支持模型管理和组装的Model Hub模块,以及加速模型调用和物理计算的Model Booster模块等。

而基于过去四年行业探索经验,他们也系统梳理出了两大行业解决方案:药物研发、生物制造,为合作伙伴提供全方位的AI模型服务,加速大模型的应用。

以药物研发为例,他们就能客户定制化构建模型、也能支持像蛋白设计这样的服务。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

比如他们就利用亲和力模型设计出多个亲和力梯度的抗体,并定制AND GATE算法,组合双抗实现靶向杀伤肿瘤细胞。通过高通量亲和力检测和 100+ 复杂构型双抗的表达与验证,最终交付了具有更佳治疗窗口的双抗。

过去四年间,百图生科的全球用户已积累超过300家,包括跨国药企、产业巨头、大型CRO、明星BioTech、科研机构等,总订单超20亿美元,可以说初步完成了技术和商业验证的闭环,实现产业的初步积累。

如今有了强大的基础模型底座,他们的目标行业也指向了更广泛的领域,包括生物医药、生物制造、科研教育等。

这其实也是百图生科选择这一生态位的具象展现,那就是链接起更多的生态伙伴参与到大模型应用的进程中。

如今生命科学领域大模型正在加速落地应用,但与此同时挑战也同样艰巨,需要生态伙伴携手来解决。

CEO刘维就举了个例子,其数字化和智能化在很多方面尚未实现。诸多研发工作仍然主要以所见即所得的方式进行——

仍然以专家经验和人类先验假设为基础进行实验验证假设,或者以在自然界中发现然后进行实验改造为主。

而只有越来越多的企业完成大模型的赋能,才能带动整个行业的数字化智能化。

Foundation Model+Science正在到来

借着百图生科生命科学基础大模型的发布,也是时候对「大模型如何赋能生命科学领域」做个阶段性梳理。

首先,跟其他行业一样,生命科学领域正迎来全行业的重塑,甚至比其他领域更快。

仅过去一年时间,传统药企巨头拥抱AI,像辉瑞、礼来等全球药企巨头任命首席AI官;科技巨头纷纷出手布局,诸如谷歌Meta英伟达也早已相关探索。还有像赛诺菲,这种全球TOP10药企愿意砸超10亿美金与百图生科共同打造AI模型。

各种生命科学大模型也纷纷被顶刊所接收,比如像百图生科此前发布的单细胞大模型、千亿参数蛋白大模型等工作就多次登上Nature子刊封面和学术顶会。相较于其他领域,这么一个古老的领域的发展速度,直接来了个弯道超车。

而从时间维度来看,计算对生命科学的赋能,经历从单模态单尺度到多模态多尺度的赋能。而在大模型语境下,就是从“AI+”到“大模型+”的时代,如今AI在生命科学里的创新应用正在迎来「寒武纪爆发」临界点。

一切以AlphaFold为节点。

传统依靠实验室工具和分析手段的方式,价格高昂耗时也长,无法充分发挥数据背后的价值。

随着AI深度学习的出现,这个问题迎来了转机。DeepMind从人类已确定的17万种蛋白质序列库中训练学习得到AlphaFold,实现了之前远超其他所有团队的准确率,开辟了“先假设-再验证-最后优化假设”的干湿实验循环闭环。

这时候,生命科学领域迎来了他们自己的AI1.0时刻。

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列

不过当时还只是聚焦于单链蛋白质单一模态,预测准确率还有大量的提升空间,海量的生物数据还没有被充分挖掘。

而随着自监督范式Transformer架构、扩散模型等进展的出现,让海量各种模态的数据处理、跨模态多尺度协作处理成为了可能,更多潜在的下游场景被实现,也就是所谓AI2.0时刻。

就像最新的AlphaFold3,实现了从单链蛋白质结构预测到所有生命分子的结构和相互作用的跨越。

其次,大模型赋能生命科学不仅在降本增效,还在于创新创造。

大模型对千行百业的赋能核心就在于降本增效,同样在生命科学领域,大模型可以快速处理和分析大量的生物数据,帮助科研人员更高效地筛选潜在药物靶点、设计药物分子以及预测药物效果,从而在一定程度上降低研发成本、提高研发效率。

不过这只是大模型所带来的最基本价值。创新创造才是大模型赋能生命科学的核心价值。

生命科学的技术壁垒很大程度上源于生命本质信息的高度复杂性,而这些信息往往隐藏在生命语言中。因此相比于常规自然语言模型,生命科学大模型往往肩负着更为重大的使命,那就是深入到生物进化、基因序列等生命领域的核心挑战。大模型就是像是一把钥匙,打开了一扇通往生命奥秘深处的新大门。

而一旦实现生物数据和序列的解码,就给当前一些重大难题的解决带来了可能性。比如精准医疗/个性化医疗。

而在基因组学、遗传病预测和精准医疗等领域,信息的准确性至关重要。但传统的方法常常将DNA切割成较小的片段进行分析,导致关键信息的丢失。

但现在百图生科模型所实现的DNA超长序列,就能完整保留所有基因信息。这让精准的基因分析成为可能,有助于制定出最适合患者个体的治疗方案。

例如,在癌症治疗中,完整的基因序列信息可以帮助确定癌细胞中特定的基因突变,从而为靶向治疗提供精确的靶点,提高治疗效果。

大模型带来的除了数据处理能力,还有强大的泛化能力,给行业问题解决带来全新的思路。

生命语言远比自然语言复杂,模态之间存在清晰的转化和层级关系。比如DNA、RNA、蛋白质之间的中心法则;细胞图像,细胞组学,细胞基因表达,功能注释文本之间对于细胞的联合表征;从单细胞、多细胞到构成组织。

因此大模型能做的就不仅对现有生物数据的简单解析,更重要的是能够推断未知问题。

比如预测生物结构背后的功能——

可以预测某种新型蛋白质的功能,进而为设计全新的药物或者生物技术提供可能,而这是传统研究方法很难做到的创新突破。

还有像药物发现,以往的研发可能更多地依赖于既有经验和有限的实验结果,但大模型可以通过对大量生命数据的学习和分析,提出以前未曾想到的药物靶点或者研发方向。

而拥有了预见生命科学未知领域的 “慧眼”之后,也就为合成生物学,或者更为广泛的生物制造,带来了可能性。

比如在酶的设计和菌种改造方面,AI模型通过学习现有的生物数据,生成新的酶序列,并预测其催化功能。通过这种方式加速了生物制造中的酶催化过程,显著提高了生产效率,并降低了制造成本。

再往前一步,整个工业制造领域,包括农业、食品、化工、材料、能源等行业都能被赋能覆盖。

从理解生命到预测生命再到设计、创造生命,这也是大模型为生命科学带来创新创造价值的重要体现。

它从根本上改变了生命科学的研究路径和思维方式,推动生命科学朝着更深入、更具前瞻性的方向发展。

相对于其他行业,在生命科学领域的应用价值更大、前景更高,也就更是一件长期主义的事情了。

这需要生态合作,共同推动产业发展。更需要像百图生科这样的玩家站出来提供基础服务。

现在,百图生科,迈出了第一步。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-07 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...发布了一个叫021的科学模型,希望在地球科学、天文学、生命科学、材料科学等多个领域加速科学发现、变革科研范式,成为科学家们手里的最强“外挂”。所谓的021,实际上是英文zer
2025-12-19 07:22:00
全球首个百亿级人类基因组基础模型Genos发布!
在生命科学的前沿探索中,我们早已能高效“读出”生命的序列,但如何从30亿碱基对中“读懂”生命奥秘,长期以来都是一项巨大挑战,如同在没有地图的荒野中寻找路径。10月23日,在第二十
2025-10-24 13:21:00
追问|浙大张国捷团队重构鸟类生命之树,提现生鸟类分类新方案
...了什么事。”浙江大学生命演化研究中心张国捷教授团队重构并革新了现生鸟类的系统发育树,厘清了现生鸟类各类群之间的关系,解决了鸟类类群关系长达一个多世纪的争议。2024年4月2日
2024-04-02 10:41:00
...重庆2月16日电 (记者 钟旖)记者16日从西南大学获悉,该校生命科学学院教育部重点实验室徐洛浩教授课题组日前在《美国科学院院刊》(PNAS)发表题为《家鸡基因组完成图的演化
2023-02-16 20:58:00
...旦大学计算机科学技术学院教授颜波带领的团队迁移到了生命科学实验室里的常用研究工具“荧光显微镜”上。他们发明的跨任务、多维度图像增强基础AI模型(UniFMIR),实现了对现有
2024-04-13 15:51:00
“ChatGPT们”改变新药研发,高质量数据哪里来?
图片来源@视觉中国文|硅谷101,作者|泓君 肖阳生命科学走出一百年黑暗探索95年前,细菌学家亚历山大·弗莱明在偶然中发现了青霉素,可谓是人类医药史上最重大的发现之一。虽然生命科
2023-02-22 08:00:00
AI蛋白质折叠:在生命宇宙中漫游,远眺生物经济的流光
...分子层面认识和研究生命,除了DNA的秘密被揭晓,推动了生命科学领域的一次重大飞跃外,蛋白质作为生命的物质基础、生命活动的主要承担者的重要性也逐渐为科学家所发掘。而有关蛋白质的
2024-09-18 15:04:00
DNA双螺旋发现70年:从认识基因走向合成生命
...保存和传递信息的。在此基础上,分子生物学诞生,现代生命科学的“帷幕”也就此正式拉开。过去70年间,人类认识到生命最根本的基石是四个“碱基字母”及其相应的“书写规则”,并由此打
2023-02-25 05:46:00
...质可以被精准“编程”的时代,从医药研发到环境保护,生命科学将向前迈出更大的步伐。
2025-05-17 06:02:00
更多关于科技的资讯:
大皖新闻讯 为什么偏偏是饺子?时光回到14年前,袁记云饺创始人袁亮宏或许不曾想到,这样一个寻常巷口里诞生的“饺子店”
2026-01-14 21:19:00
大热!机器人行业招聘同比增长37%
2026年是“十五五”规划开局之年,发展新质生产力已摆在更加突出的战略位置。回望2025年,新质生产力相关产业已在实践中形成并展示出对高质量发展的推动力和支撑力
2026-01-14 21:40:00
江南时报讯 日前,昆山农商银行联合海联海律师事务所、昆山市交通运输局举办“聚势低空,共创未来”低空经济产业沙龙活动。活动汇聚昆山市低空经济领域企业代表
2026-01-14 21:49:00
江南时报讯 去年以来,泗阳农商银行以华为“广、深、高、速”的客户洞察框架为指引,深入洞察不同客户群体在生产、经营、生活中的“急难愁盼”
2026-01-14 21:49:00
中新经纬1月14日电 据“CHALI官方”公众号消息,14日,广州茶里集团有限公司(简称“茶里公司”)发布关于近期相关舆情的声明
2026-01-14 21:55:00
北京海淀:开展健康小家电质量检查行动
近日,北京市海淀区市场监管局开展了健康小家电质量检查行动。检查聚焦豆浆机、养生壶、煮蛋器等小家电,核查生产许可证、3C认证证书及质量检验报告,确保所售商品符合国家强制性标准。中国
2026-01-14 17:59:00
中国消费者报福州讯(陈梅冰 记者张文章)为助力辖区企业及个体工商户把握新媒体发展机遇,1月13日,福建省厦门市翔安区市场监管局协同翔安区个体私营企业协会举办题为“新媒体时代
2026-01-14 17:59:00
随着健康养生理念的深入,鲜炖燕窝凭借“新鲜炖煮、冷链配送、营养保留完整”的优势,成为越来越多人的滋补首选。但市场上品牌林立
2026-01-14 19:35:00
承包你的厨房 这就是河南“食”力丨UP!豫新潮③
大河网讯 在中国食品产业的版图上,河南以其令人瞩目的“硬核”数据占据着举足轻重的地位,这里生产了全国二分之一的火腿肠、三分之一的方便面
2026-01-14 17:06:00
荆楚网(湖北日报网)讯(记者齐一璇 通讯员袁嘉晨)近日,华中农业大学信息学院科研成果再传捷报,两项重要研究成果分别斩获省级
2026-01-14 14:29:00
CIBF2026:以自律、创新与协同,引领动力储能电池行业高质量发展
当前,中国动力储能电池行业在展现强劲增长活力的同时,也正在经历规模扩张与深度调整并行的关键阶段。一方面,产业数据彰显活力
2026-01-14 15:23:00
摘要:前瞻性、广覆盖、强协同1月8日,北京智谱华章科技股份有限公司(以下简称"智谱")成功登陆港交所,成为"大模型第一股"
2026-01-14 15:23:00
大爱无疆 行者致远 | 大行与爱地雅携手开启绿色出行新篇章
元月初始,万象更新,一场意义非凡的战略合作签约仪式在大行总部隆重举行,大行与爱地雅(东莞)自行车有限公司(下称爱地雅)正式签订战略合作协议
2026-01-14 15:23:00
河北新闻网讯(梁彬)为抢抓2026年首季业务攻坚关键期,提升团队实战营销能力,1月10日至11日,唐山农商银行古冶支行举办了为期两天的实践营销能力提升专题培训
2026-01-14 16:02:00
指尖筑梦 创意飞扬---临沂北园路小学3DOne设计社团阶段性成果展
鲁网1月14日讯近日,临沂北园路小学3DOne设计社团阶段性成果展示顺利开展。自社团成立以来,一群充满好奇心与创造力的小社员们
2026-01-14 11:17:00