• 我的订阅
  • 科技

百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

类别:科技 发布时间:2023-05-19 02:00:00 来源:搜狐科技
百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

搜狐科技讯

5月17日,由搜狐主办的2023搜狐科技峰会在北京盛大开幕。今年,搜狐科技峰会走入第五个年头,峰会规格和内容再次迎来重磅升级。本届峰会齐聚多位院士、科学家、学者和头部企业嘉宾,共同探讨前沿科学与科技变革发展。

峰会下午,百图生科生物计算创新发展平台总经理高亮做了题为《AI Generated Protein:设计全新蛋白 解码生命问题》的演讲。

高亮认为,人工智能大模型在生命科学领域意义重大。传统的蛋白发现受限于天然存在的蛋白质,而大模型能够极大扩展搜索空间,高效设计全新功能。

在高亮看来,人工智能大模型或在生物计算领域掀起新的浪潮,或改写生命科学领域的研发技术能力。“大模型可以从所有进化知识中学习可能性和收敛规律,跳出局部最优,快速迭代演化,从而拥有高效的全新蛋白设计能力。”

此外,高亮认为,若要做好生物计算大模型引擎,须有三大模块的支撑:一是计算大模型可以进行跨模态预训练和高性能计算;其次是大数据图谱,公开数据挖掘+独特自产数据;最后则是高通量验证,具备高速的蛋白质和细胞的读写系统。

百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

高亮在2023搜狐科技峰会上发表演讲

以下为高亮演讲全文:

感谢搜狐科技让我有机会分享人工智能在生命科学领域的最新进展,我分享的是基于AI大模型的前沿生命科学科研平台——AIGP,如何破解生命的自然语言。

前述几位科学家已经详细分享了AI大模型怎样破解人类自然语言这一篇章。我在这里想跟大家分享的是,为什么生命科学领域也可以做这样的大模型?

自然语言的进化过程和生命进化过程有内在的相似之处。自然语言是人类对复杂物理世界进行的一种描述。以英文为例,经过几万年的进化,逐渐演化出26个英文字母,在这个基础上形成了词,词的基础上形成了句子,句子基础上形成了篇章,进而形成了现在的自然语言。

在生命进化过程当中也有这样的路径,只不过这个路径非常长,要经过上千万年的进化,最后收敛到21个氨基酸,这21个氨基酸以一定序列排列起来后,在三维空间折叠成蛋白质,蛋白质多了以后就形成了细胞,细胞形成组织,组织又形成了生命体。

二者做类比的话,氨基酸就像自然语言处理当中的字母,21个氨基酸是用21个英文字母表达的,在这个基础上,蛋白质就是词,蛋白质和蛋白质之间有非常复杂的作用,可以理解为自然语言处理当中非常典型的任务,就是上下文交互的关系。

我们认为,传统蛋白发现受限于天然存在的蛋白质,而大模型能够极大扩展搜索空间,高效设计全新功能。天然存在的蛋白质仅代表一小部分可能性,未知领域的全部潜力仍待释放。而通过AI大模型,数万亿倍的增量空间可以被探索。

AI大模型在de novo蛋白方面比传统方式效率更高。传统方式以实验观测/动物筛选为基础,再做少量修改或模型训练拟合。受限于实验平台的物种空间,仅占总蛋白设计空间的万亿分之一。

而大模型可以从所有物种中学习可能性和收敛规律,跳出局部最优,快速迭代演化,从而拥有高效的全新蛋白设计能力。

2018年 OpenAI成立,五年的时间里ChatGPT引爆了体验的革新。相信生命科学领域的大模型目前正处于临界点上,关键问题是,谁能够在这个临界点上作为弄潮儿?生命科学领域的大模型又该怎么做?

与自然语言处理稍有不同,如果若要做好生物计算大模型引擎,我们认为必须有以下三个大模块。

第一是“计算大模型”,可以进行跨模态预训练和高性能计算;第二是“大数据图谱”,公开数据挖掘,并且提供独特自产数据;而第三个则是“高通量验证”,这一部分主要进行蛋白质读写系统和细胞的读写系统。

以上三个模块在这里也想跟大家介绍一下。

首先是跨模态的大模型,这个大模型最关键的是要实现两点,第一点就是所谓的跨模态;第二点,所有的大模型都需要的高性能的计算,生命科学领域的数据非常分散,有的是细胞跟细胞之间相互结合的数据,有的是蛋白质跟蛋白质之间相互结合的数据,还有蛋白质本身功能的数据等。我们设计这样的模型,希望能够把所有的弱相关的数据全部提取统一的表征。

另外一个方面,就是数据挖掘。生命科学领域的数据非常有意思,基本上是半公开的数据。很多的研究所、科学家等等做非常多的试验,但是很多数据都分布在各个分散的领域,彼此之间相似性也很少;同时,“私有的数据”也很重要,要建自己私有的高通量实验室并做线下的验证。目前我们拥有90%半公开数据和10%私有数据,共同为大模型进行数据迭代。

第三个,蛋白质读写系统和细胞读写系统。目前,我们已经在北京和苏州建了近一万平米的高通量实验室,而高通量实验室也真正帮助了AI模型的迭代。现在,蛋白质分析与蛋白质的合成等实验体系已经非常成熟。但是,AI对于这样的实验系统要求又不同。例如,对于AI来说,正样本和负样本都是有价值的数据。

基于大模型,我们的AIGP平台已具备一系列功能,可以根据不同的输入、例如可开发性指标等,设计/优化蛋白质,从而为各类创新药物/环保和可持续发展领域,设计独特的功能/结构的蛋白构件。

第一个功能是Function to Protein,即将目标蛋白质形状、功能、可开发性指标等作为输入,AIGP平台可以自动输出氨基酸序列,生成或者优化可以满足你需要的蛋白质。

第二个功能叫Protein to Protein,即根据一系列给定Protein(抗原),设计与之以特定方式结合的Protein(抗体)。

此外,AIGP还能实现“高特异性设计”,这也是AI非常擅长的,即在短时间内尝试与各种蛋白质组合,保证蛋白质和蛋白结合有非常高的特异性。

第三个Cell-to-Protein功能,AIGP平台能根据给定细胞/细胞组合,发现调控细胞的有效蛋白靶点/组合,并继而快速设计调控蛋白的能力。

简而言之,百图生科要借AI生成创新蛋白之能力,去解决生命科学领域各种各样的问题,尤其是前沿问题。

正如ChatGPT从2018年开启、在2023年成果颇显,我们希望,生命科学领域也能够拥有这样的五年之约:到下一个五年,我们今年发布的AIGP平台能够产生像ChatGPT一样的推动力和影响力,通过先进AI技术与前沿生物技术相结合,改变生命科学研发现状。

谢谢大家。

见证过5G商用元年及其应用的爆发,探讨过AI技术发展与人文价值的平衡,搜狐科技峰会始终秉持媒体公共责任价值,宣扬求知探索的科学精神,聚焦前沿科学发展和技术创新应用。

本届峰会全新升级,重点聚焦更前沿的科学突破,展望人类更遥远的未来。从宇宙文明、天文卫星、人类永生,到核聚变、6G通信、脑机接口,再到通用人工智能时代启幕下的行业变革,以及青年科学家的价值守望和基础科学探索,都将是此次峰会关注的议题。

赓续探索精神,逐梦星辰大海。除本篇外,搜狐科技还将通过多种方式全方位呈现此次峰会嘉宾关于前沿科学与技术发展的洞见和思考。更多精彩内容请关注2023搜狐科技峰会专题报道。

【附专题链接】

PC端

WAP端

APP端

文章来源:顶端新闻

文章链接:https://static.dingxinwen.com/dd-sharepage/detail/index.html?id=4272858#/?categoryId=3返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-19 05:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

倒计时1天!2023搜狐科技峰会即将开幕,顶级嘉宾解读科技大变局
...行业大变革”展开,主题涉及大模型技术对办公、绘图、生命科学等领域的影响。钉钉总裁叶军将带来《生产力变革,AI重塑工作方式》,智谱AI COO张帆将与大家分享关于大模型的探索和
2023-05-16 23:00:00
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
生命科学领域,已经率先进入到基础模型时代!今年,化学诺贝尔奖授予了AlphaFold,AI+Science受到空前的关注。人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此
2024-11-07 09:50:00
对话百图生科首席AI科学家宋乐博士:“xTrimo”生命科学AI大模型,不应止于加速药物研发
...现,AI大模型在各个领域的应用潜力正在被激发。其中,生命科学是一个早已被关注,但似乎不那么“吸睛”的领域。然而,事实上,其或许是AI大模型最重要的应用领域之一,并将有望同时实
2023-03-15 09:26:00
百图生科CEO刘维:生命科学AI大模型,开启创新药物研发新范式
生命科学领域正在迎来新故事。就像ChatGPT打开了人机对话的窗口,一批生命科学AI大模型也在开发的路上,甚至已经有人打响了落地第一枪,或将为行业带来革命性的变化。“我们在通过大
2023-08-24 16:50:00
医渡科技出席世界生命科学大会,创新性提出医疗大模型需要“教育”与“培训”
...考的重点。近日,医渡云首席数据科学家彭滔博士在世界生命科学大会“2023AI大模型医疗场景应用论坛”上发表了主题演讲,分享了AI大模型在医疗行业的技术和模式创新。他指出,通用
2023-07-14 18:00:00
《麻省理工科技评论》中国智能计算创新人物峰会圆满落幕
...,来自不同学术背景的专家们分享了他们对于人工智能在生命科学领域应用的深刻见解。同时,他们普遍认为,尽管 AI 技术在生命科学中的应用前景广阔,但仍需与实验科学紧密结合,以实现
2024-04-29 10:09:00
生成式AI大模型:有望实现生命从头设计
...设计,我们将以前所未有的方式操控生物分子,引发一场生命科学领域的创新革命,直接促进生命科学领域研究及人类的医疗健康产业的发展,有望对癌症、艾滋病、衰老、老年痴呆症等重大医疗难
2023-12-25 05:45:00
...旦大学计算机科学技术学院教授颜波带领的团队迁移到了生命科学实验室里的常用研究工具“荧光显微镜”上。他们发明的跨任务、多维度图像增强基础AI模型(UniFMIR),实现了对现有
2024-04-13 15:51:00
《理解未来》科学讲座聚焦ChatGPT等 探索生物制药领域搭建模型
...环节。与会者主要围绕“AI+生物医药前景”“生成式AI对生命科学领域带来的影响”“如何促进AI专家与科学家加强合作”等议题展开讨论。“AI将可能的文本、知识、代码进行训练,当
2023-02-14 16:48:00
更多关于科技的资讯: