• 我的订阅
  • 科技

继 AI 绘画、AI 聊天后,没学过生物的「门外汉」也能「一键生成」蛋白质

类别:科技 发布时间:2023-02-24 01:00:00 来源:砍柴网

过去,一个博士生直到毕业,恐怕并未见过蛋白质设计出来的样子 -- 需要一段一段敲掉某些天然蛋白质片段,再人工设计、拼补上去。现在科研人员通过 AI 模型一次性提交几十个蛋白质设计需求,几个小时后便马上收到一份设计结果和分析报告。生命科学的下一个时代,似乎来了。

ChatGPT 引发的新一轮 AI 浪潮,正在席卷生命科学界。

2023 年初,ChatGPT 大火。继去年 11 月 30 日上线第 5 天用户获增 100 万,如今短短两个月时间,ChatGPT 日活用户已超 1 亿,成为历史上增长最快的消费级应用程序。直到今天,与之相关的讨论仍层出不穷。

伴随着 ChatGPT 的火热,国内市场也很难平静。

百度、阿里、腾讯、网易、京东、360、字节等耳熟能详的大厂接连入局,一度将 "AI 大模型 " 推向主流;不少小型企业借助这一概念抬高股价,就连求职榜上的算法、NLP、AIGC 等相关岗位,也涌入了一波又一波的年轻人。

ChatGPT 再次将 AI 技术推向幕前,最令人惊喜的莫过于生成式 AI 与生命科学的深度融合。

近日,国内 AI 公司天壤智能发布了基于扩散的生成模型 TRDiffusion,这是一种蛋白质设计的新方法。

TRDiffusion 从零开始创造,生成全新的蛋白质结构,而非自然界中已经存在的天然蛋白质。在相同计算资源配置和时间内,TRDiffusion 完成的设计数量提升了 2 倍以上,设计结果与之前方法的结果表现出更强的多样性。

实际上,早在 2022 年 9 月,天壤就上线了蛋白质工作台 xCREATOR,实现 " 一键设计满足描述的蛋白质 " 等需求。

" 相比较而言,新模型将蛋白质设计周期从两天缩减为几小时,改变了过去‘延迟满足’的设计模式。"

天壤创始人,CEO 薛贵荣对雷峰网 &《医健 AI 掘金志》表示," 换句话说,一个分秒必争的蛋白质设计时代正在悄悄拉开帷幕。"

基于扩散的蛋白质生成模型,或成第四代蛋白质设计新方向

蛋白质是一种含有特定氨基酸序列的分子,因其空间结构的不同,决定了生物学功能的差异。

因此,当天然蛋白结构功能,不能满足工业或医疗应用需求时,想要得到特定的功能蛋白,就需要对其结构进行设计。

然而,自 20 世纪 80 年代以来,蛋白质设计却一直受限于人类对蛋白质折叠的理解不足而停滞不前。

苗洪江来自天壤 XLab,是该实验室的负责人。

他表示,蛋白质设计最早出现在 20 世纪 80 年代,共经历三个阶段:

第一代蛋白质设计通过简单化学原理指导二级结构片段的组装。

第二代蛋白质设计加入了专家经验,通过序列 - 结构关系指导结构片段组装。

第三代有了明显突破,一方面借助更大的天然蛋白质数据库增加结构片段多样性,同时借助从已知结构中终结的物理及知识能量函数,寻找能量最小的目标蛋白质。

继 AI 绘画、AI 聊天后,没学过生物的「门外汉」也能「一键生成」蛋白质

苗洪江

但总体来说,前三代设计方法都存在极大限制,比如过度依赖专家经验或者天然蛋白质。直到 21 世纪,随着蛋白质三维结构数据的快速增长,尤其是 2020 年底,AlphaFold2 在高精度蛋白质结构预测上取得了革命性进展,获得了蛋白质序列与结构之间的高纬关联,以 AI 主导的蛋白质设计也随之爆发。

正如深圳湾实验室周耀旗教授所言," 在后 AlphaFold 时代,大家自然而然地想要解决一个实用的反问题:根据某个功能的结构,设计出相应的、能够折叠成这样结构的蛋白质序列。现在,几乎每隔一小段时间就有一篇 AI 蛋白质设计的预印论文出现。"

2022 年,AIGC 绘画爆火,普通人只要用语言给出描述、或者几个关键词,就可以用 AI 程序生成一张媲美专业画师的作品。

与此同时,AIGC 背后的关键技术 --" 扩散模型 " 也成功出圈,一度启发了计算生物学家。

2022 年 12 月 1 日,蛋白质设计领域的领军人物 David Baker、波士顿的蛋白质设计公司 Generate Biomedicines,同天宣布 " 将 AI 绘画领域的扩散模型融入蛋白质设计中 "。

然而问题随之而来," 基于扩散的蛋白质生成模型 " 究竟有何优势?

据苗洪江介绍," 相比其它模型,基于扩散的生成模型更接近人的思维模式,也是 AIGC 拥有开放性创造力的原因之一。其工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转噪声过程来学习恢复数据。"

通俗来讲,在环境中,气体分子会高浓度区域扩散到低浓度区域。这一过程也类似噪声逐步扩散,最终导致声场充满噪音。如果这一原理逆用,则是不断 " 去噪 ",露出事物 " 真面目 " 的过程:

首先,生成一张充满大量噪声的图片;

再基于 AI 能力,一边猜测哪些对于最终的图像而言是 " 噪点 ",将其去除,那么剩下的便是所需的 " 信息 ";

通过迭代,在噪声中反复提取出 " 信息 ",最终生成被指定的图片。

事实上,天壤此次带来的 TRDiffusion 模型,正是采用的扩散模型。

苗洪江进一步介绍," 当 TRDiffusion 模型生成蛋白质时,是将蛋白质中每个残基的主链结构,看成可以自由移动的刚体,生成结构的初始坐标为随机噪声。再通过‘去噪模型’,逐步地将随机分布的残基,移动及组装成合理的蛋白质三维结构。"

天壤 TRDiffusion 的原理图示:不断去噪,设计出新的蛋白质

值得一提的是,蛋白质设计是结构预测的逆向问题。有人形容道," 两者像是「序列——结构」这道题的正反求解。已知序列、求解三维结构,是结构预测;设定某个三维结构、求解序列,便是蛋白质设计。"

因此,此前天壤自研的蛋白质结构预测模型 TRFold,也顺势被 TRDiffusion 二次利用。

苗洪江解释道,"TRDiffusion 中的‘去噪模型’,继承了结构预测模型 TRFold 的主体网络结构,并利用 TRFold 权重作为初始化,满足空间旋转平移等不变性。"

目前测试结果显示,在相同计算资源配置和时间内,TRDiffusion 完成的设计数量较之前模型提升了 2 倍以上,设计结果与之前方法的结果表现出很强的多样性,比如自由设计、复合体设计、对称性设计、局部多样性优化、功能蛋白质设计、结合配体设计等设计需求,更能针对用户设定的目标蛋白质局部或整体结构、蛋白质分类、种属及功能标注等进行调控和设计。

继 AI 绘画、AI 聊天后,没学过生物的「门外汉」也能「一键生成」蛋白质

天壤 TRDiffusion 生成的全新的蛋白质结构

据苗洪江介绍,该模型将在 2023 年 2 月下旬上线蛋白质工作台 xCREATOR。届时,用户只需在平台输入目标蛋白质的简单描述,如序列长度、结构对称性、目标功能 motif、结合配体结构、化学计量等,即可 " 一键生成 " 满足描述的蛋白质。

蛋白质设计风口已来,业界比拼大模型热情不减

实际上,在 2023 年当下这个时间点,蛋白质设计领域早已暗潮汹涌。

早在去年年底,国外就有三家公司竞相发布了蛋白质设计的新模型。

如前文所述,2022 年 12 月初,华盛顿大学 David Baker 团队发布了 RFDiffusion,用扩散模型设计出多种与天然蛋白质截然不同的全新单链蛋白质及复合体,目前已制造出一种可以与甲状旁腺激素结合的全新蛋白质。

据悉,RFDiffusion 也可向多个方向扩展应用,比如该技术最近已扩展到核酸和蛋白质 - 核酸复合体,后续也将也扩展到设计小分子结合蛋白。

同日,由生命科学顶级风投 Flagship Pioneering 孵化的蛋白质设计公司 Generate Biomedicines,发布扩散蛋白生成模型 Chroma,可根据预设要求设计蛋白质序列和结构。

2022 年 1 月,该公司曾一举拿下自 Amgen(安进)的 5 个订单,预付款约 5 千万美元,潜在合约价值超 19 亿美元。公开资料显示,5 个靶标全部用于开发蛋白疗法,预计生产达百万量级,并透露安进将参与 Generate 的新一轮融资。

更为重要的是,波士顿拥有全球闻名的医疗机构,从综合性医院、肿瘤专科医院到儿童医院,以及世界 Top20 制药公司,在医疗集聚方面有着巨大成就。而这层背景,或将助推 Generate 抢占市场先机。

在蛋白质设计领域,也不乏众多后起之秀。

其中 Meta 公司的 ESM2、加州伯克利的一家初创公司 Profluent 的 ProGen,则是仿造 "ChatGPT" 背后的大型语言模型(LLM),相继推出了蛋白质序列预训练大模型,实现可编程的蛋白质从头设计。对此,业内众说纷纭,乐观派称," 这项新技术可能会‘超越诺奖’ -- 比 2018 年的定向进化蛋白设计技术更加强大。"

继 AI 绘画、AI 聊天后,没学过生物的「门外汉」也能「一键生成」蛋白质

薛贵荣

天壤创始人,CEO 薛贵荣对此颇有感触,"尽管这些公司的技术路径不尽相同,但这些模型和算法的集中爆发,意味着我们已经迈入了一个可编程的生物学新时代,最快年底会有一大波蛋白质设计被验证。"

同时他也认为,如今蛋白质设计浪潮兴起,至少指出了三个可能:

一、沿用天然蛋白质设计的老路已经没有太大兴奋感,从头生成人工蛋白的 AI 系统已将蛋白质设计变得 " 可控化 "、" 批量化 "、" 广泛化 ";

二、以蛋白质设计来讲,不管是在医疗应用、食品生产、工业应用、环境保护、可再生资源还是其他领域,都具备有非常广阔的应用场景,背后的商业价值正在被更多人看到;

三、ChatGPT 作为第一个消费级 AI 爆款,是公众第一次亲身体验现代人工智能的强大功能,随着 ChatGPT 应用的增长、甚至 "BioGPT"、"ProtGPT" 的出现,人们会对 AI 产生越来越多的信任。

以上观点不难看出,对于国内从业者而言,借助风口深扎技术,为迎接未来工业需求做准备,显然已经成为自身发展过程中的重要命题。

与此同时,生成式 AI 技术的科研和工程实施还处于发展初期,除基座模型的角逐外,能否有更多公司参与到应用级创新,同样是决定生态繁荣的重要因素。

实际上,天壤并非初涉生命科学领域。早在 2019 年,旗下天壤 XLab 成立,专注于 IT+BT 融合发展,旨在将蛋白质开发从 " 机会性游戏 ",转变为高确定性的、可预测的 " 工业化流程 ",满足医疗、材料、能源和食品等领域对功能蛋白质的需求。

2022 年,公司技术数项成果并出,陆续建成 TRFold(单链结构预测,有 MSA)、TRFold-Single(单链结构预测,无 MSA)、TRComplex(复合体结构预测)、TRDesign(蛋白质设计)四大核心能力,并在去年 9 月推出国内首个蛋白质设计工作台 xCREATOR。

至此,一条兼具 " 蛋白质结构预测 + 设计 + 开放平台 " 技术闭环搭建完成。

一定程度上说,在天壤此次技术升级之后,国内蛋白质设计市场的红利将进一步放大,后续将涌现出更多的 " 鲶鱼 ",引发全社会对生命科学产业的关注。

产学研合作已是大势所趋,大规模设计成为时代主流

人类发现蛋白质的时间不过两百年,大自然却花了上亿年形成蛋白质进化规律。直到今天,人们不能完全翻译这些规律,但仍然期待有一天可以通过发明强大 AI 工具,并对它发出设计蛋白质的指令。

这种期待是美好的,蛋白质设计前景也是广阔的,但当前,这一赛道尚处于孕育探索阶段。

就技术研发和应用角度考量,如何从模型生成的大量符合需求的蛋白质中筛选出最优的结构、如何评价这些蛋白质的功能和性质、是否有可能从模型的角度自动化进行筛选,仍然值得进一步讨论。

正如苗洪江所说," 和 AI 绘画、AI 聊天不同,蛋白质设计的本质是科学创新,比如要对设计蛋白的稳定性、亲和力、寡聚性等特性进行预测及优化,否则就是‘伪蛋白’。"

实际上,针对这一问题,天壤的一大解决思路是与高校合作," 在实际项目过程中发现模型和平台存在的问题 "。

去年 9 月,天壤公布蛋白质设计工作台—— xCREATOR,其设计初衷,即解决跨领域技术门槛高、工作流程碎片化的问题,目标是在同个工作台上一站式地完成全部蛋白质设计项目。

目前,xCREATOR 工作台已集成了市面上优秀的算法,包括天壤 XLab 自研的算法与所有外部开源和合作伙伴的算法。尤为重要的是,这款平台供高国内外高校师生免费使用,一方面能够提供更开放的学术环境,为前沿项目提供技术支撑;另一方面,对于尚未建设湿实验室的天壤来说,来自各大高校的真实实验数据反馈,也成为天壤升级蛋白质设计算法的重要基础。

薛贵荣举了个例子," 过去博士生做蛋白质设计,需要一段一段敲掉某些片段,再人工设计拼补上去,等到毕业了还没有见过蛋白质设计出来的样子。相比较而言,现在学生可以一次性提交几十个蛋白质设计需求,几个小时后马上收到一份蛋白质设计结果和分析报告。"

站在平台的角度上,天壤越来越明确提供工具的角色定位,追求开放化的思路。

薛贵荣提到,未来天壤要两条腿走路,重点打造干湿一体化实验室,从计算平台走进实验平台,真正从产业端的角度推动前端的蛋白质设计工作。

据悉,目前天壤 XLab 团队从头设计了适用于多种疾病的人工蛋白质候选药物,如新冠刺突蛋白结合剂,能够有效阻止刺突蛋白和人体 ACE2 蛋白结合;以及 IL-2 类似物,能够激活特定淋巴细胞,同时避免当前 IL-2 类药物毒性;可用于捕捉和封存二氧化碳的碳酸酐酶,相比于天然碳酸酐酶,其长度仅为天然碳酸酐酶的 1/3 左右,稳定性更高,成本低廉便于工业应用。目前,这些蛋白的计算设计工作都已完成,正在推进实验检验。

这似乎又开始了让人熟悉的剧情。场景的吸引力、模式的吸引力,本质上,都是内容和技术的原始创新。

"当实现蛋白质设计日吞吐量达到上千上万,甚至更多时,蛋白质设计将彻底告别‘束手束脚’的日子,一个真正的生命科学时代才算到来。"

GAIR LIVE|讲座预约

| 生物计算 " 奥赛 " 冠军论道:当生命科学遇上史诗级 AI,何去何从?

日前结束的第 41 届 JP 摩根医疗健康大会上,科技公司 Nvidia 的报告指出," 或许很快,基于 AlphaFold2 精准解析蛋白质三维结构,再加上能从头生成人工蛋白质设计技术,就会给生物学领域带来一场新的变革。"

为了更加深入、系统地讨论生命科学技术的落地,2 月 23 日(本周四 0:00),我们邀请了CASP15 四支冠军团队,论道:《当生命科学遇上史诗级 AI,何去何从?》

智峪生科董事长,CEO 王晟担任主持、密歇根大学计算医学及生物信息学系郑伟、浙江工业大学信息工程学院张贵军教授、江苏理工学院生物信息与医药工程研究所常珊教授、智峪生科 CTO 熊鹏共同参与讨论。

读者可扫描文章底部海报的二维码,添加策划人吴彤微信(微信号:icedagunaing),备注 " 姓名 + 职位 ",后续我们会邀请您进入专家社群,并将您的问题收集、汇总,反馈给参会嘉宾,在讨论环节进行解答。

关于 GAIR Live

" 全球人工智能与机器人大会 "(GAIR)始于 2016 年雷峰网与中国计算机学会(CCF)合作创立的 CCF-GAIR 大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网 " 连接三界 " 的全新定位也在此大会上得以确立。

经过几年发展,GAIR 大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live 作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。

来源:钛媒体返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-02-24 05:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

蛋白质生成大模型NewOrigin亮相WAIC!许锦波:将满足蛋白生成全流程需求
7月7日,在2023世界人工智能大会(WAIC)上,业界首个AI蛋白质生成大模型“NewOrigin”(中文名为“达尔文”)正式亮相
2023-07-09 01:00:00
火爆全球的Chat GPT,想毁灭人类?
...配,微调使得预训练模型变得过于拟合。人工智能预测的蛋白质结构(蓝色)与实验确定的蛋白质结构(绿色)几乎完美匹配|Deep Mind‍ AI在生物医学领域的应用不仅如此
2023-02-01 21:23:00
永中智能办公软件亮相贵阳数博会,边摸鱼边干活的日子要来了
...,产品自动进行数据统计与分析,即使是不熟悉表格的“门外汉”,也能轻松完成复杂的函数运算,以及各类可视化图表。场景定制,党政教育工作者福音来了15种公文格式一键应用,大学论文的
2023-05-29 18:00:00
AI能生成超越自然界的新型蛋白质,可用于制造特定机械性能材料
蛋白质是生命的基础,也是许多新型材料的灵感来源。然而,自然界中已知的蛋白质只是冰山一角,还有无数未被发现的蛋白质等待探索。如何快速有效地设计出具有特定结构和功能的新型蛋白质,是一
2023-04-24 20:48:00
生成式AI大模型:有望实现生命从头设计
...国际顶级期刊《自然》上的论文《用可编程生成模型理解蛋白质空间》也引起科技界轰动。这篇文章用生成式AI大模型生成了自然界中从来没有存在过的蛋白质分子,并经实验验证获得了蛋白质的
2023-12-25 05:45:00
本文转自:科技日报AI生成超越自然界的新蛋白质可用于制造特定机械性能材料科技日报北京4月23日电 (记者张梦然)美国研究人员使用人工智能(AI)来设计超越自然界的新蛋白质。他们开
2023-04-24 01:36:00
分子之心公布达尔文大模型新进展
...能产业研究院(AIR)卓越访问教授许锦波携自主研发的AI蛋白质生成大模型NewOrigin(中文名“达尔文”)亮相。会上,汇聚各界人工智能领域高端人才、旨在推进多领域融合和协
2023-09-22 11:08:00
ai智能绘画软件制作怎么弄
...滤镜添加的图片处理工具,具有照片修复、黑白照上色、一键抠图、漫画脸等多种图片处理功能。该软件内置丰富的特效模板,只要导入图片,点击需要的模板,就可以一键应用到图片。AI绘画就
2023-01-03 16:30:00
...个也是目前唯一集成序列、结构、功能和进化的产业级AI蛋白质生成大模型,拥有百亿级参数,综合运用AI技术,优化算法和物理学方法,可根据结构和功能需求直接生成具有特定功能的蛋白质
2023-12-13 12:00:00
更多关于科技的资讯: