• 我的订阅
  • 科技

百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

类别:科技 发布时间:2023-05-19 02:00:00 来源:搜狐科技
百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

搜狐科技讯

5月17日,由搜狐主办的2023搜狐科技峰会在北京盛大开幕。今年,搜狐科技峰会走入第五个年头,峰会规格和内容再次迎来重磅升级。本届峰会齐聚多位院士、科学家、学者和头部企业嘉宾,共同探讨前沿科学与科技变革发展。

峰会下午,百图生科生物计算创新发展平台总经理高亮做了题为《AI Generated Protein:设计全新蛋白 解码生命问题》的演讲。

高亮认为,人工智能大模型在生命科学领域意义重大。传统的蛋白发现受限于天然存在的蛋白质,而大模型能够极大扩展搜索空间,高效设计全新功能。

在高亮看来,人工智能大模型或在生物计算领域掀起新的浪潮,或改写生命科学领域的研发技术能力。“大模型可以从所有进化知识中学习可能性和收敛规律,跳出局部最优,快速迭代演化,从而拥有高效的全新蛋白设计能力。”

此外,高亮认为,若要做好生物计算大模型引擎,须有三大模块的支撑:一是计算大模型可以进行跨模态预训练和高性能计算;其次是大数据图谱,公开数据挖掘+独特自产数据;最后则是高通量验证,具备高速的蛋白质和细胞的读写系统。

百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

高亮在2023搜狐科技峰会上发表演讲

以下为高亮演讲全文:

感谢搜狐科技让我有机会分享人工智能在生命科学领域的最新进展,我分享的是基于AI大模型的前沿生命科学科研平台——AIGP,如何破解生命的自然语言。

前述几位科学家已经详细分享了AI大模型怎样破解人类自然语言这一篇章。我在这里想跟大家分享的是,为什么生命科学领域也可以做这样的大模型?

自然语言的进化过程和生命进化过程有内在的相似之处。自然语言是人类对复杂物理世界进行的一种描述。以英文为例,经过几万年的进化,逐渐演化出26个英文字母,在这个基础上形成了词,词的基础上形成了句子,句子基础上形成了篇章,进而形成了现在的自然语言。

在生命进化过程当中也有这样的路径,只不过这个路径非常长,要经过上千万年的进化,最后收敛到21个氨基酸,这21个氨基酸以一定序列排列起来后,在三维空间折叠成蛋白质,蛋白质多了以后就形成了细胞,细胞形成组织,组织又形成了生命体。

二者做类比的话,氨基酸就像自然语言处理当中的字母,21个氨基酸是用21个英文字母表达的,在这个基础上,蛋白质就是词,蛋白质和蛋白质之间有非常复杂的作用,可以理解为自然语言处理当中非常典型的任务,就是上下文交互的关系。

我们认为,传统蛋白发现受限于天然存在的蛋白质,而大模型能够极大扩展搜索空间,高效设计全新功能。天然存在的蛋白质仅代表一小部分可能性,未知领域的全部潜力仍待释放。而通过AI大模型,数万亿倍的增量空间可以被探索。

AI大模型在de novo蛋白方面比传统方式效率更高。传统方式以实验观测/动物筛选为基础,再做少量修改或模型训练拟合。受限于实验平台的物种空间,仅占总蛋白设计空间的万亿分之一。

而大模型可以从所有物种中学习可能性和收敛规律,跳出局部最优,快速迭代演化,从而拥有高效的全新蛋白设计能力。

2018年 OpenAI成立,五年的时间里ChatGPT引爆了体验的革新。相信生命科学领域的大模型目前正处于临界点上,关键问题是,谁能够在这个临界点上作为弄潮儿?生命科学领域的大模型又该怎么做?

与自然语言处理稍有不同,如果若要做好生物计算大模型引擎,我们认为必须有以下三个大模块。

第一是“计算大模型”,可以进行跨模态预训练和高性能计算;第二是“大数据图谱”,公开数据挖掘,并且提供独特自产数据;而第三个则是“高通量验证”,这一部分主要进行蛋白质读写系统和细胞的读写系统。

以上三个模块在这里也想跟大家介绍一下。

首先是跨模态的大模型,这个大模型最关键的是要实现两点,第一点就是所谓的跨模态;第二点,所有的大模型都需要的高性能的计算,生命科学领域的数据非常分散,有的是细胞跟细胞之间相互结合的数据,有的是蛋白质跟蛋白质之间相互结合的数据,还有蛋白质本身功能的数据等。我们设计这样的模型,希望能够把所有的弱相关的数据全部提取统一的表征。

另外一个方面,就是数据挖掘。生命科学领域的数据非常有意思,基本上是半公开的数据。很多的研究所、科学家等等做非常多的试验,但是很多数据都分布在各个分散的领域,彼此之间相似性也很少;同时,“私有的数据”也很重要,要建自己私有的高通量实验室并做线下的验证。目前我们拥有90%半公开数据和10%私有数据,共同为大模型进行数据迭代。

第三个,蛋白质读写系统和细胞读写系统。目前,我们已经在北京和苏州建了近一万平米的高通量实验室,而高通量实验室也真正帮助了AI模型的迭代。现在,蛋白质分析与蛋白质的合成等实验体系已经非常成熟。但是,AI对于这样的实验系统要求又不同。例如,对于AI来说,正样本和负样本都是有价值的数据。

基于大模型,我们的AIGP平台已具备一系列功能,可以根据不同的输入、例如可开发性指标等,设计/优化蛋白质,从而为各类创新药物/环保和可持续发展领域,设计独特的功能/结构的蛋白构件。

第一个功能是Function to Protein,即将目标蛋白质形状、功能、可开发性指标等作为输入,AIGP平台可以自动输出氨基酸序列,生成或者优化可以满足你需要的蛋白质。

第二个功能叫Protein to Protein,即根据一系列给定Protein(抗原),设计与之以特定方式结合的Protein(抗体)。

此外,AIGP还能实现“高特异性设计”,这也是AI非常擅长的,即在短时间内尝试与各种蛋白质组合,保证蛋白质和蛋白结合有非常高的特异性。

第三个Cell-to-Protein功能,AIGP平台能根据给定细胞/细胞组合,发现调控细胞的有效蛋白靶点/组合,并继而快速设计调控蛋白的能力。

简而言之,百图生科要借AI生成创新蛋白之能力,去解决生命科学领域各种各样的问题,尤其是前沿问题。

正如ChatGPT从2018年开启、在2023年成果颇显,我们希望,生命科学领域也能够拥有这样的五年之约:到下一个五年,我们今年发布的AIGP平台能够产生像ChatGPT一样的推动力和影响力,通过先进AI技术与前沿生物技术相结合,改变生命科学研发现状。

谢谢大家。

见证过5G商用元年及其应用的爆发,探讨过AI技术发展与人文价值的平衡,搜狐科技峰会始终秉持媒体公共责任价值,宣扬求知探索的科学精神,聚焦前沿科学发展和技术创新应用。

本届峰会全新升级,重点聚焦更前沿的科学突破,展望人类更遥远的未来。从宇宙文明、天文卫星、人类永生,到核聚变、6G通信、脑机接口,再到通用人工智能时代启幕下的行业变革,以及青年科学家的价值守望和基础科学探索,都将是此次峰会关注的议题。

赓续探索精神,逐梦星辰大海。除本篇外,搜狐科技还将通过多种方式全方位呈现此次峰会嘉宾关于前沿科学与技术发展的洞见和思考。更多精彩内容请关注2023搜狐科技峰会专题报道。

【附专题链接】

PC端

WAP端

APP端

文章来源:顶端新闻

文章链接:https://static.dingxinwen.com/dd-sharepage/detail/index.html?id=4272858#/?categoryId=3返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-19 05:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

倒计时1天!2023搜狐科技峰会即将开幕,顶级嘉宾解读科技大变局
...行业大变革”展开,主题涉及大模型技术对办公、绘图、生命科学等领域的影响。钉钉总裁叶军将带来《生产力变革,AI重塑工作方式》,智谱AI COO张帆将与大家分享关于大模型的探索和
2023-05-16 23:00:00
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
生命科学领域,已经率先进入到基础模型时代!今年,化学诺贝尔奖授予了AlphaFold,AI+Science受到空前的关注。人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此
2024-11-07 09:50:00
... V3、以2100亿参数量刷新纪录之后,近日,百图生科发布AI生命科学基础大模型驱动的生成式发现系统(下称“发现系统”)。与会专家在发布会上围绕让AI真正落地生命科学、实现从
2025-05-06 19:36:00
对话百图生科首席AI科学家宋乐博士:“xTrimo”生命科学AI大模型,不应止于加速药物研发
...现,AI大模型在各个领域的应用潜力正在被激发。其中,生命科学是一个早已被关注,但似乎不那么“吸睛”的领域。然而,事实上,其或许是AI大模型最重要的应用领域之一,并将有望同时实
2023-03-15 09:26:00
百图生科CEO刘维:生命科学AI大模型,开启创新药物研发新范式
生命科学领域正在迎来新故事。就像ChatGPT打开了人机对话的窗口,一批生命科学AI大模型也在开发的路上,甚至已经有人打响了落地第一枪,或将为行业带来革命性的变化。“我们在通过大
2023-08-24 16:50:00
医渡科技出席世界生命科学大会,创新性提出医疗大模型需要“教育”与“培训”
...考的重点。近日,医渡云首席数据科学家彭滔博士在世界生命科学大会“2023AI大模型医疗场景应用论坛”上发表了主题演讲,分享了AI大模型在医疗行业的技术和模式创新。他指出,通用
2023-07-14 18:00:00
全球首个百亿级人类基因组基础模型Genos发布!
在生命科学的前沿探索中,我们早已能高效“读出”生命的序列,但如何从30亿碱基对中“读懂”生命奥秘,长期以来都是一项巨大挑战,如同在没有地图的荒野中寻找路径。10月23日,在第二十
2025-10-24 13:21:00
...发布了一个叫021的科学模型,希望在地球科学、天文学、生命科学、材料科学等多个领域加速科学发现、变革科研范式,成为科学家们手里的最强“外挂”。所谓的021,实际上是英文zer
2025-12-19 07:22:00
《麻省理工科技评论》中国智能计算创新人物峰会圆满落幕
...,来自不同学术背景的专家们分享了他们对于人工智能在生命科学领域应用的深刻见解。同时,他们普遍认为,尽管 AI 技术在生命科学中的应用前景广阔,但仍需与实验科学紧密结合,以实现
2024-04-29 10:09:00
更多关于科技的资讯:
鸿蒙版皖事通升级 上线“高效办成一件事”服务入口
大皖新闻讯 近日,安徽省一体化政务服务平台“皖事通”(移动端)已经全面适配鸿蒙系统,依托鸿蒙意图框架实现“功能一步达”创新服务模式
2026-02-12 20:45:00
随着春节的临近,采购年货成了消费者近期最主要的消费行为。伴随着即时零售的迅速发展,越来越多的商家加入了“春节不打烊”服务阵营
2026-02-12 21:23:00
从参与“墨子号”项目到助力“祖冲之三号” 这位“80后”博士眼中的量子科技“很有趣”
大皖新闻讯 丙午马年春节的脚步越来越近,“80后”博士李东东依然忙碌着,身为科大国盾量子技术股份有限公司(以下简称“国盾量子”)的高级技术专家
2026-02-12 21:53:00
莱芜农商银行雪野旅游区公司业务营销中心:金融夜校进企业 岁末赋能助扬帆
鲁网2月12日讯年关将至,购置年货、返乡出行、储蓄规划、消费理财成为企业员工的核心关切。为破解上班族“白天忙工作、无暇办金融”的困扰
2026-02-12 22:01:00
“电影想象力消费”入选2025年度“人文学科十大学术热点”
中国青年报客户端讯(中青报·中青网记者 余冰玥)日前,由中国人民大学书报资料中心人文编辑部策划组织的2025年度“人文学科十大学术热点”公布
2026-02-12 22:46:00
中新经纬2月12日电 12日,商务部召开例行新闻发布会。商务部新闻发言人何亚东在会上提到,持续推进出海服务资源的优质供给和高效匹配
2026-02-12 18:24:00
“万物科普”精彩继续 “智造”妙趣点亮新春 扫码阅读手机版
2月11日上午,河西区图书馆“万物科普课堂”迎来第二场精彩活动。本次“神奇‘印’记——3D打印共塑马年新章”专场,将前沿的3D打印技术与激光切割工艺深度融合
2026-02-12 14:30:00
中新经纬2月12日电 (张宁)据韩联社12日报道,12日,路易威登(LV)、迪奥(DIOR)、蒂芙尼(Tiffany&
2026-02-12 14:50:00
5 厘米高精度建模!中建八局以倾斜摄影技术为雄安数字建设注入新动能
近日,在雄安新区启动区国家能源集团雄安基地项目施工现场,一架搭载五镜头传感器的无人机平稳降落,标志着项目施工总包单位中国建筑第八工程局有限公司顺利完成本月第三次全域实景数据采集工作
2026-02-12 14:54:00
索乙家政服务是扩大内需的重要支点。随着居民人均服务性消费支出占比已接近居民消费的“半壁江山”,家政行业也迎来战略机遇期
2026-02-12 15:00:00
胡欣红最近,“要不要对AI说谢谢”引发社会热议。这场讨论并非空穴来风,据媒体报道,对于AI来说,每一次“谢谢”都相当于一次指令
2026-02-12 15:00:00
鲁网2月12日讯近日,华为智能生活馆·青岛乐客城店盛大启幕。作为青岛地区首个超千平智能生活馆,该店以约1317平方米的超大体量
2026-02-12 15:28:00
岚图汽车成功完成港股上市前置审批 即将登陆香港联交所
2月12日,岚图汽车宣布已获得香港联交所的原则性同意,标志着其港股上市的全部前置监管审批流程已顺利完成。这一进程仅用四个月
2026-02-12 16:20:00
高端润滑油的智造密码
2月9日,润滑油北京有限公司员工加紧节前生产,确保高质量交付客户产品。本报记者 程阳 摄 郑德辉 文2月9日,中国石化报记者来到润滑油北京有限公司
2026-02-12 11:53:00