• 我的订阅
  • 科技

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

类别:科技 发布时间:2024-06-27 09:31:00 来源:新智元

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

新智元报道

编辑:乔杨 好困

【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。

继AlphaFold 3更新后,我们又看到了一个生命科学领域的大模型ESM3。

模型开发团队来自于名为Evolutionary Scale AI的初创公司,团队负责人Alex Rives在推特上官宣了模型发布的消息。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

这个令人振奋的消息也得到了Yann LeCun的转发,他表示,你们这个公司有点「闷声发大财」的意思。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

相比AlphaFold系列,ESM3有什么竞争优势?

首先就是Meta团队轻车熟路的——开源。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

虽然模型API仍处于内测阶段,需要申请试用资格,但模型代码已经放到了GitHub上。而且公司还会与AWS和英伟达云计算平台合作,方便开发者使用和部署。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

仓库地址:https://github.com/evolutionaryscale/esm

但比较遗憾的是,目前在HuggingFace仓库中还没有公开模型权重。英伟达官方博客显示,ESM3将在Nvidia BieNeMo平台提供一个小型开源版本的代码和权重,但仅限于非商业用途。

仓库地址:https://huggingface.co/EvolutionaryScale/esm3-sm-open-v1/tree/main

此外,ESM3与不同于模拟多种生物分子的AlphaFold 3,只专注于蛋白质,但可以同时推理其序列、结构和功能,这种多模态能力属于领域首创。

更让人耳目一新的是,ESM3在自然界中27.8亿个多样化蛋白质上进行训练,逐渐学习到了进化过程如何让蛋白质发生变化。

从这个角度来看,ESM的推理过程可以被视为「进化模拟器」,这为当前的生命科学研究开辟了全新的视角。团队甚至在官网文章中提出了「模拟5亿年进化」的标语。

或许你已经注意到了,ESM这个名字和Meta之前的蛋白质模型ESMFold非常类似。

这并不是有意擦边。事实上,Evolutionary Scale这家初创公司就是Meta-FAIR蛋白质小组的前成员创办的,公司的首席科学家Alex Rives正是这个已解散团队的前负责人。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

去年8月,在Meta的「效率年」中,扎克伯格选择解散了只有十几名科学家的蛋白质小组,让公司专注于更有盈利前景的研究。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

但Rives并没有被Meta的这种举动吓倒,而是决定自立门户,他们目前已经筹集了1.42亿美元的种子资金。

那么就来仔细看看,这次的ESM3具体有哪些新内容?

ESM3:生物学的前沿语言模型

生命科学并不像我们想象的那般神秘莫测、不可捉摸。

蛋白质分子虽然有难以置信的多样性和动态变化,但是它的合成遵循严密的算法与流程。如果把它看成一门技术,其先进程度远远超过任何人类创造的工程。

生物学,就是一个厚厚的密码本。

只不过,这个密码本是用我们尚未理解的语言写就的,即使是当今最强超算上运行的工具也不过触及皮毛。

如果人类能够阅读,甚至是书写「生命代码」,就能使生物学变得可编程。试错法将被逻辑取代,费力的实验将被模拟所取代。

ESM3就是朝这个宏伟愿景迈出的一步,是迄今为止首个能同时对蛋白质的序列、结构和功能进行推理的生成模型。

过去五年中LLM的突飞猛进,也让ESM团队发现了Scaling Law的威力,他们发现,同样的模式也适用于生物学。

随着训练数据以及参数规模的扩大,模型会加深对生物学基本原理的理解,并能更好地预测、设计生物结构和功能。

因此,ESM3的开发思路也与Scaling Law一脉相承,其规模比上一代ESM大大扩展,数据量提高了60倍,训练计算量提高了25倍,并且是具有原生多模态的生成模型。

ESM3的训练过程囊括了地球自然环境的多样性——数十亿种蛋白质,从亚马逊雨林到海洋深处,小到土壤中的微生物,极端到深海热泉。

HuggingFace上的模型卡显示,训练集中天然蛋白质数量达到27.8亿,并通过合成数据增强到31.5亿个序列、2.36个结构以及5.39亿个带有功能注释的蛋白质,token总数达到7710B。

模型训练参数总量达到98B,使用了超过1024 FLOPS的算力。团队似乎与英伟达紧密合作,训练使用了Andromeda集群,是当今吞吐量最高的GPU集群之一,部署了最先进的H100 GPU和Quantum-2 InfiniBand网络。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

网页来源:https://andromeda.ai/

他们表示「相信ESM3的计算总量是有史以来生物模型之最」。

推理蛋白质的序列、结构和功能

处理文本的语言模型一般以token作为基本单位,但多模态的蛋白质模型更加复杂,需要将序列、三维结构和功能都转换为离散的字母进行表示。

为了更好地扩展训练规模、释放模型的「涌现」生成潜力,ESM3使用的词汇在同一语言模型中能够很好地连接序列、结构和功能,进行联合推理。

不同于GPT等语言模型,ESM3的训练目标继承于掩码语言模型(masked language modeling objective)。

每个蛋白质的序列、结构、和功能的部分位置会被掩码,模型在训练过程中需要逐渐理解三者之间的深层联系,从而预测掩码位置。如果遮蔽所有位置的标记,就相当于执行生成任务。

由于在蛋白质的序列、结构和功能上联合训练,对这三种模态可以任意进行掩码和预测,因此ESM3实现了「全对全」预测或生成(all to all)。

也就是说,模型的输入可以是部分或完全指定的三种模态的任意组合。这种强大的多模态推理能力有很强的应用价值,科学家们能以前所未有的灵活度和控制度设计全新的蛋白质。

比如,可以提示模型结合结构、序列和功能,提出PET酶活性位点的潜在支架结构。PET是一种常用的塑料,如果PET酶设计成功,就能用于高效分解塑料废物。

ESM3通过序列、结构和功能的多模态提示设计PET酶活性位点的支架

Evolutionary Scale的联合创始人兼兼工程副总裁Tom Sercu表示,在内部测试中,ESM在应对各种复杂提示时表现出了令人印象深刻的创造力。

「它能够解决一个极其困难的蛋白质设计问题,创造一种新型绿色荧光蛋白。ESM3能够帮助科学家加速工作,开辟新的可能性——我们期待看到它在未来对生命科学研究的贡献。」

当数十亿个蛋白质来自进化时间轴上的不同位置,具有丰富的多样性时,模型还能学到模拟进化的能力。

能力随规模涌现

正如LLM在规模扩展中「涌现」出了语言理解、推理等能力,在解决有挑战性的蛋白质设计任务时,ESM3也随规模增加逐渐显现能力,其中一个重要的能力就是原子级协调。

比如,提示中可能指定组成蛋白质的两个氨基酸需要在序列位置上相近,但在结构中相距较远。这衡量了模型在结构生成任务中达到原子级精度的能力。

这对于设计功能性蛋白质至关重要,而ESM3解决这类复杂生成任务的能力可以随着规模增加逐渐提高。

不仅如此,在训练完成后,ESM3的能力还有进一步提升的空间,其机制类似于LLM常用的RLHF方法。

但区别在于,ESM3并不是从人类那里接受反馈,而是可以评估自身的生成质量,进行自我改进,也可以结合已有的实验数据和湿实验结果,让ESM3的生成与生物学结果保持对齐。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

模型生成能力随规模增长,且微调的提升效果明显

模拟5亿年的进化

在发表的论文中,ESM3团队详细介绍了他们在模型上观察到的「模拟进化」功能。

论文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

绿色荧光蛋白(Green Fluorescent Protein,GFP)及其荧光蛋白家族是自然界中最美丽的蛋白质之一,但它们只存在于「生命之树」的几个分支中。

但GFP不仅仅是美丽而已,它包含一种荧光发色团(fluorescent chromophore)。这种分子可以吸收短波长的单色光子、捕获部分能量,再释放出波长较长的另一种单色光子。比如,自然界存在的GFP可以吸收蓝光并发出绿光。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

由于这种特性,GFP能够作为标记,帮助科学家在细胞内观察蛋白质,成为了生物学中最广泛使用的工具之一,GFP的发现也因此获得了诺贝尔奖。

GFP的功能如此独特且有用,结构也是非常罕见:由十一条链组成的桶状结构,中间穿过一条螺旋。折叠后进行自发反应,在蛋白质中心的分子会重新排列,产生荧光发色团。

这种机制是独一无二的。没有其他已知的蛋白质能够自发地从其自身结构中形成荧光发色团,这表明即使在自然界中,产生荧光也是相当罕见且困难的。

为了能在实验室有更广泛的应用,科学家们尝试添加突变或改变颜色,进行人工合成。最新的机器学习技术能够搜索到序列差异高达20%的变体,但功能性GFP的主要来源依旧是自然界而非蛋白质工程。

想在自然界中找到更多的变体也并不简单,因为新荧光蛋白的进化需要漫长的时间——GFP所属家族的历史相当久远,它们从祖先序列中分化出来的时间点能追溯到数亿年前。

这个棘手的问题或许能在ESM3这里得到解决。

将天然GFP核心结构中几个位点的信息作为提示,并使用CoT技巧,ESM3成功生成了新型GFP的候选者。

这种生成绝不可能是随机撞大运或者是全局搜索,因为可能的序列和结构的组合起来会达到天文数字——20229x 4096229,比可见宇宙中所有的原子数加起来还要多。

在首次实验中,团队测试了ESM3生成的96个候选蛋白,其中出现了成功的发光样本,而且存在一种十分独特的结构,与自然界中任何蛋白质都相差甚远。

在另一组96个候选样本中,发现了几种亮度与天然GFP相似的蛋白质,其中一种亮度最高的蛋白质被命名为esmGFP,与最接近的天然荧光蛋白相比有96个突变(在229个氨基酸组成的序列中,有58%的相似部分)。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

左侧是与所有已知GFP都相差较大的生成物B8,从B8开始,ESM3生成了右图的esmGFP

与自然进化不同,蛋白质语言模型并不在进化约束内明确工作。

但为了让ESM3解决其预测下一个掩码token的训练任务,模型必须学习进化如何在潜在蛋白质空间中演变。

从这个意义上说,ESM3生成与天然蛋白十分相似的esmGFP的过程,可以被视为一种进化模拟器。

对esmGFP进行传统的进化分析是自相矛盾的,因为它是在自然过程之外创造的,但仍可以从进化生物学的工具中获得洞见,了解一个蛋白质通过自然进化与其最近的序列邻居分化所需的时间。

因此,研究团队使用进化生物学的方法,把esmGFP当成自然界新发现的蛋白质进行分析。他们估计,esmGFP等效于进化模拟器执行的超过 5 亿年的自然进化。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

esmGFP的渲染图

开放模型

自成立以来,ESM项目(ESM project)一直致力于通过发布代码和模型来实现开放科学。目前仍能在GitHub和HuggingFace上找到团队在几年前发布的代码和模型权重。

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

仓库地址:https://huggingface.co/facebook/esm2_t36_3B_UR50D/tree/main

看到ESM模型在研究和工业领域的创造性和有影响力的应用,可谓是令人惊叹:

- Hie等人使用ESM-1v和ESM-1b来进化抗体,改善了结合亲和力、热稳定性和病毒中和等治疗相关特性。

- BioNTech和InstaDeep微调了一个ESM语言模型,用于检测COVID刺突蛋白中的变异,成功地在WHO指定之前标记了所有16种关注变异。

- Brandes等人使用ESM-1b来预测突变的临床效果,目前这仍是完成该重要任务的最强方法。

- Marsiglia等人使用ESM-1v来设计新的抗CRISPR蛋白变体,这些变体在保持目标编辑功能的同时,减少了对非目标副作用。

- Shanker等人使用ESM-IF1引导多样蛋白的进化,包括实验室验证的对SARS-CoV-2高效抗体。

- Yu等人微调了ESM-1b来预测酶的功能,包括稀有和研究不足的酶,并通过实验验证了预测结果。

- Rosen等人使用ESM2嵌入来构建单细胞基础模型中的基因表示。

- Høie等人微调了ESM-IF1在抗体结构上的表现,在CDR区域的序列恢复中达到了最先进的性能,设计出了高结合亲和力的抗体。

而这些,只是建立在ESM平台上的惊人工作的一小部分!

如今,团队正式宣布,将发布一个ESM3 1.4B参数版本的权重和代码,以便科学家和开发人员能够基于ESM3的理念和架构进行构建。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-27 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Nature重磅研究:AlphaFold绘制病毒「族谱」,揭开身世之谜
...haFold这类生物大模型的新用途——揭示生物的亲缘关系和进化史。今年7月,被Meta解散的ESMFold团队成功另起炉灶
2024-09-19 13:39:00
人类食肉进化史:从饲养牲畜到培养细胞
图为浙江大学展示的国内首例厘米级细胞培养大黄鱼组织仿真鱼排样品。 洪恒飞摄◎洪恒飞 卢馨怡 本报记者 江 耘细胞培养肉被认为是极有潜力解决未来人类餐桌肉品和蛋白供应,减少人工养殖
2023-06-15 09:57:00
...奇怪的突起。这些表面突起可能支持这样一种观点,即在进化史上的某个时刻,仙宫古菌利用其膜的延伸性抓住了一种经过的细菌,并将细菌吸入其细胞体,这导致了细胞核的发育。L. ossi
2022-12-29 01:02:00
揭秘人类曾拥有的神秘“阴茎骨”,是进化还是退化?
...类演化过程中由于食物环境的改变而逐渐消失的。在人类进化史上,进食方式的改变对我们的生理结构产生了巨大的影响。在远古时代,我们的祖先主要以采集植物和捕杀动物为生。当时的食物极为
2024-01-10 10:33:00
为什么说病毒是人类的“盟友”?
...病毒“相爱相杀”是一个宏观的说法,就是从漫长的生命进化史来看待这个问题,如果没有病毒的驱动,就不会产生如此复杂的生物多样性,也很难产生人类。就算在当下,如果所有病毒消失,那么
2023-01-09 10:57:00
当我在追《牛奶是部文明史》,更懂特仑苏的格局从何而来
...这些跨越千年的「牛奶时刻」,印证着一个真理:乳业的进化史,本质是人类追求更好生活的奋斗史。比如第四集中,纪录片中那些似乎简单的画面背后,往往蕴含着千年的历史印记。印尼米南加宝
2025-03-28 21:39:00
地球真正的“主人”,数量大于脑神经元,相互之间可以传递信息
地球的进化史是一部壮观的宇宙史诗,记录了地球从无生命的荒芜星球演变为拥有丰富生物多样性的蓝色星球的过程。在这漫长的岁月里,地球经历了无数次的灾难与重生,才逐渐形成了如今我们所居住
2024-06-20 12:48:00
人类诞生的时间又提前啦?!
...,不断取得突破性的发现。自人类化石被发现以来,人类进化史一直在不断延长——从北京猿人的发现,到“人类老祖母”露西的发现,再到千禧人和图迈的发现就是证明。科学家对蛋白质和DNA
2023-06-16 13:47:00
锤成这样,她这次要是还能复出的话…在座的网友可真得反省了吧!
...他几个血型的理论和结论也都大差不差,基本都是从这种进化史的角度,进行的分析和建议,大人就不一一列上来水字数了。总之,一切看起来都很有道理吧?BUT,2001年2月挪威营养学会
2023-06-20 14:25:00
更多关于科技的资讯:
新春消费旺好市开门红 厦门春节消费新场景亮点频现
春节期间,中山路商圈人潮涌动。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 沈彦彦 王元晖)政企协同发力,活动精彩纷呈,消费新场景亮点频现
2026-02-24 08:03:00
拥抱“ABC”
拥抱“ABC”,让这家从杭州发展起来的民营制造企业,积极融入全球航空产业链高端环节。在航空制造领域,一颗新星,“布灵布灵”闪着光
2026-02-24 07:06:00
2月19日,泰山玻璃纤维(太原)有限公司生产车间内,窑炉火焰熊熊、生产线全速运转,一派繁忙有序的新春生产景象。为抢抓生产进度
2026-02-24 07:47:00
东南网2月23日讯(福建日报记者 黄筱菁 通讯员 吴火招)这个春节,位于清流氟新材料产业园福宝片区的福建中欣氟材高宝科技有限公司(以下简称“中欣高宝”)
2026-02-24 00:07:00
新春佳节,当千家万户沉浸在团圆的喜悦中时,在宁波,有这样一群人,他们为了赶订单、保交付,选择坚守生产一线。据统计,今年春节期间
2026-02-23 17:31:00
定义AI数字化增长服务新模式 数织沅码亮相多地春晚舞台
2026年春节,AI驱动企业全球数字化增长的专业服务平台——数织沅码登陆江苏卫视、浙江卫视等多地春晚舞台,完成首次公开亮相
2026-02-23 11:47:00
中国科技品牌绿联推进充电宝品质升级,让充电更安心
对用户而言,充电宝早已不是偶尔应急的配件,而是通勤、差旅、校园与户外场景中的常备装备。行业也普遍认为,当快充普及、多设备协同成为日常
2026-02-23 13:11:00
引言:腥风血雨已至,智能体元年全面爆发2026年的春天,人工智能领域正经历一场前所未有的变革。当全球科技巨头仍在为生成式AI的迭代速度激烈竞逐时
2026-02-23 13:12:00
以武会春,宇树春晚机器人马年秀出“赛博真功夫”
新春启序,万象更新。在中央广播电视总台2026年春晚舞台上,宇树科技作为春晚机器人合作伙伴第三次登台亮相,携G1与H2人形机器人献上全球首次全自主人形机器人集群武术表演(带集群快速跑位)
2026-02-23 11:47:00
大年初六,位于余杭区“中国飞谷”的重隼智能科技(浙江)有限公司马力全开,以开局即冲刺的姿态,奋力跑出新年发展第一棒。“作为一家深耕无人机具身智能集成创新的科技型企业
2026-02-23 07:58:00
2月20日上午9时,太原武宿综合保税区A座环球优选品牌店的大门准时开启,300余款新春礼盒整齐排列,品类丰富,琳琅满目
2026-02-23 07:29:00
“十五五”开局看河北|淡季不淡,冀东普天产销两旺
新年首月销售额近8000万元,同比增长14.3%淡季不淡,冀东普天产销两旺1月26日,冀东普天线缆有限公司工人正在优化生产设备
2026-02-23 07:37:00
河北日报讯(记者孙也达)2月14日,秦皇岛晟成自动化设备有限公司生产的全球首台套出口型电磁加热多层层压机完成拆解,运往美国
2026-02-23 07:48:00
双轮驱动,智启未来:刘晓春与AI智能体×机器人“姊妹组合战略”的全球布局
2026,智能时代的分水岭2026年的春天,马年春晚的舞台上,一场科技盛宴惊艳了全球观众——30多台国产机器人协同起舞
2026-02-22 12:05:00
新春走基层丨厦企加快数字化转型步伐 提前返岗忙生产赶订单
明翰电气的工人春节期间坚守岗位。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹)放置材料、调试机台……正月初五,厦门明翰电气股份有限公司(以下简称“明翰电气”)已忙碌起来
2026-02-22 08:50:00