• 我的订阅
  • 科技

百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

类别:科技 发布时间:2023-05-19 02:00:00 来源:搜狐科技
百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

搜狐科技讯

5月17日,由搜狐主办的2023搜狐科技峰会在北京盛大开幕。今年,搜狐科技峰会走入第五个年头,峰会规格和内容再次迎来重磅升级。本届峰会齐聚多位院士、科学家、学者和头部企业嘉宾,共同探讨前沿科学与科技变革发展。

峰会下午,百图生科生物计算创新发展平台总经理高亮做了题为《AI Generated Protein:设计全新蛋白 解码生命问题》的演讲。

高亮认为,人工智能大模型在生命科学领域意义重大。传统的蛋白发现受限于天然存在的蛋白质,而大模型能够极大扩展搜索空间,高效设计全新功能。

在高亮看来,人工智能大模型或在生物计算领域掀起新的浪潮,或改写生命科学领域的研发技术能力。“大模型可以从所有进化知识中学习可能性和收敛规律,跳出局部最优,快速迭代演化,从而拥有高效的全新蛋白设计能力。”

此外,高亮认为,若要做好生物计算大模型引擎,须有三大模块的支撑:一是计算大模型可以进行跨模态预训练和高性能计算;其次是大数据图谱,公开数据挖掘+独特自产数据;最后则是高通量验证,具备高速的蛋白质和细胞的读写系统。

百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

高亮在2023搜狐科技峰会上发表演讲

以下为高亮演讲全文:

感谢搜狐科技让我有机会分享人工智能在生命科学领域的最新进展,我分享的是基于AI大模型的前沿生命科学科研平台——AIGP,如何破解生命的自然语言。

前述几位科学家已经详细分享了AI大模型怎样破解人类自然语言这一篇章。我在这里想跟大家分享的是,为什么生命科学领域也可以做这样的大模型?

自然语言的进化过程和生命进化过程有内在的相似之处。自然语言是人类对复杂物理世界进行的一种描述。以英文为例,经过几万年的进化,逐渐演化出26个英文字母,在这个基础上形成了词,词的基础上形成了句子,句子基础上形成了篇章,进而形成了现在的自然语言。

在生命进化过程当中也有这样的路径,只不过这个路径非常长,要经过上千万年的进化,最后收敛到21个氨基酸,这21个氨基酸以一定序列排列起来后,在三维空间折叠成蛋白质,蛋白质多了以后就形成了细胞,细胞形成组织,组织又形成了生命体。

二者做类比的话,氨基酸就像自然语言处理当中的字母,21个氨基酸是用21个英文字母表达的,在这个基础上,蛋白质就是词,蛋白质和蛋白质之间有非常复杂的作用,可以理解为自然语言处理当中非常典型的任务,就是上下文交互的关系。

我们认为,传统蛋白发现受限于天然存在的蛋白质,而大模型能够极大扩展搜索空间,高效设计全新功能。天然存在的蛋白质仅代表一小部分可能性,未知领域的全部潜力仍待释放。而通过AI大模型,数万亿倍的增量空间可以被探索。

AI大模型在de novo蛋白方面比传统方式效率更高。传统方式以实验观测/动物筛选为基础,再做少量修改或模型训练拟合。受限于实验平台的物种空间,仅占总蛋白设计空间的万亿分之一。

而大模型可以从所有物种中学习可能性和收敛规律,跳出局部最优,快速迭代演化,从而拥有高效的全新蛋白设计能力。

2018年 OpenAI成立,五年的时间里ChatGPT引爆了体验的革新。相信生命科学领域的大模型目前正处于临界点上,关键问题是,谁能够在这个临界点上作为弄潮儿?生命科学领域的大模型又该怎么做?

与自然语言处理稍有不同,如果若要做好生物计算大模型引擎,我们认为必须有以下三个大模块。

第一是“计算大模型”,可以进行跨模态预训练和高性能计算;第二是“大数据图谱”,公开数据挖掘,并且提供独特自产数据;而第三个则是“高通量验证”,这一部分主要进行蛋白质读写系统和细胞的读写系统。

以上三个模块在这里也想跟大家介绍一下。

首先是跨模态的大模型,这个大模型最关键的是要实现两点,第一点就是所谓的跨模态;第二点,所有的大模型都需要的高性能的计算,生命科学领域的数据非常分散,有的是细胞跟细胞之间相互结合的数据,有的是蛋白质跟蛋白质之间相互结合的数据,还有蛋白质本身功能的数据等。我们设计这样的模型,希望能够把所有的弱相关的数据全部提取统一的表征。

另外一个方面,就是数据挖掘。生命科学领域的数据非常有意思,基本上是半公开的数据。很多的研究所、科学家等等做非常多的试验,但是很多数据都分布在各个分散的领域,彼此之间相似性也很少;同时,“私有的数据”也很重要,要建自己私有的高通量实验室并做线下的验证。目前我们拥有90%半公开数据和10%私有数据,共同为大模型进行数据迭代。

第三个,蛋白质读写系统和细胞读写系统。目前,我们已经在北京和苏州建了近一万平米的高通量实验室,而高通量实验室也真正帮助了AI模型的迭代。现在,蛋白质分析与蛋白质的合成等实验体系已经非常成熟。但是,AI对于这样的实验系统要求又不同。例如,对于AI来说,正样本和负样本都是有价值的数据。

基于大模型,我们的AIGP平台已具备一系列功能,可以根据不同的输入、例如可开发性指标等,设计/优化蛋白质,从而为各类创新药物/环保和可持续发展领域,设计独特的功能/结构的蛋白构件。

第一个功能是Function to Protein,即将目标蛋白质形状、功能、可开发性指标等作为输入,AIGP平台可以自动输出氨基酸序列,生成或者优化可以满足你需要的蛋白质。

第二个功能叫Protein to Protein,即根据一系列给定Protein(抗原),设计与之以特定方式结合的Protein(抗体)。

此外,AIGP还能实现“高特异性设计”,这也是AI非常擅长的,即在短时间内尝试与各种蛋白质组合,保证蛋白质和蛋白结合有非常高的特异性。

第三个Cell-to-Protein功能,AIGP平台能根据给定细胞/细胞组合,发现调控细胞的有效蛋白靶点/组合,并继而快速设计调控蛋白的能力。

简而言之,百图生科要借AI生成创新蛋白之能力,去解决生命科学领域各种各样的问题,尤其是前沿问题。

正如ChatGPT从2018年开启、在2023年成果颇显,我们希望,生命科学领域也能够拥有这样的五年之约:到下一个五年,我们今年发布的AIGP平台能够产生像ChatGPT一样的推动力和影响力,通过先进AI技术与前沿生物技术相结合,改变生命科学研发现状。

谢谢大家。

见证过5G商用元年及其应用的爆发,探讨过AI技术发展与人文价值的平衡,搜狐科技峰会始终秉持媒体公共责任价值,宣扬求知探索的科学精神,聚焦前沿科学发展和技术创新应用。

本届峰会全新升级,重点聚焦更前沿的科学突破,展望人类更遥远的未来。从宇宙文明、天文卫星、人类永生,到核聚变、6G通信、脑机接口,再到通用人工智能时代启幕下的行业变革,以及青年科学家的价值守望和基础科学探索,都将是此次峰会关注的议题。

赓续探索精神,逐梦星辰大海。除本篇外,搜狐科技还将通过多种方式全方位呈现此次峰会嘉宾关于前沿科学与技术发展的洞见和思考。更多精彩内容请关注2023搜狐科技峰会专题报道。

【附专题链接】

PC端

WAP端

APP端

文章来源:顶端新闻

文章链接:https://static.dingxinwen.com/dd-sharepage/detail/index.html?id=4272858#/?categoryId=3返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-19 05:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

倒计时1天!2023搜狐科技峰会即将开幕,顶级嘉宾解读科技大变局
...行业大变革”展开,主题涉及大模型技术对办公、绘图、生命科学等领域的影响。钉钉总裁叶军将带来《生产力变革,AI重塑工作方式》,智谱AI COO张帆将与大家分享关于大模型的探索和
2023-05-16 23:00:00
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
生命科学领域,已经率先进入到基础模型时代!今年,化学诺贝尔奖授予了AlphaFold,AI+Science受到空前的关注。人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此
2024-11-07 09:50:00
... V3、以2100亿参数量刷新纪录之后,近日,百图生科发布AI生命科学基础大模型驱动的生成式发现系统(下称“发现系统”)。与会专家在发布会上围绕让AI真正落地生命科学、实现从
2025-05-06 19:36:00
对话百图生科首席AI科学家宋乐博士:“xTrimo”生命科学AI大模型,不应止于加速药物研发
...现,AI大模型在各个领域的应用潜力正在被激发。其中,生命科学是一个早已被关注,但似乎不那么“吸睛”的领域。然而,事实上,其或许是AI大模型最重要的应用领域之一,并将有望同时实
2023-03-15 09:26:00
百图生科CEO刘维:生命科学AI大模型,开启创新药物研发新范式
生命科学领域正在迎来新故事。就像ChatGPT打开了人机对话的窗口,一批生命科学AI大模型也在开发的路上,甚至已经有人打响了落地第一枪,或将为行业带来革命性的变化。“我们在通过大
2023-08-24 16:50:00
医渡科技出席世界生命科学大会,创新性提出医疗大模型需要“教育”与“培训”
...考的重点。近日,医渡云首席数据科学家彭滔博士在世界生命科学大会“2023AI大模型医疗场景应用论坛”上发表了主题演讲,分享了AI大模型在医疗行业的技术和模式创新。他指出,通用
2023-07-14 18:00:00
全球首个百亿级人类基因组基础模型Genos发布!
在生命科学的前沿探索中,我们早已能高效“读出”生命的序列,但如何从30亿碱基对中“读懂”生命奥秘,长期以来都是一项巨大挑战,如同在没有地图的荒野中寻找路径。10月23日,在第二十
2025-10-24 13:21:00
...发布了一个叫021的科学模型,希望在地球科学、天文学、生命科学、材料科学等多个领域加速科学发现、变革科研范式,成为科学家们手里的最强“外挂”。所谓的021,实际上是英文zer
2025-12-19 07:22:00
《麻省理工科技评论》中国智能计算创新人物峰会圆满落幕
...,来自不同学术背景的专家们分享了他们对于人工智能在生命科学领域应用的深刻见解。同时,他们普遍认为,尽管 AI 技术在生命科学中的应用前景广阔,但仍需与实验科学紧密结合,以实现
2024-04-29 10:09:00
更多关于科技的资讯:
12月26日,杭州市市场监督管理局召开专题新闻通气会,对外公布了2025年不锈钢真空杯与儿童旅游鞋两类产品的质量比对结果
2025-12-27 07:39:00
昨天下午,2025“梦溪杯”宋韵文化创新大赛颁奖典礼在杭州凤凰里文创园举行。自10月15日启动至11月20日截稿,大赛共收到来自英国
2025-12-27 07:39:00
杭州市西湖区后陡门58号,原本只是城市边缘一个普通的小村子,仅仅三年,这里已经蜕变成“种地星”人的共同家园。这个开园仅两个多月的农文旅融合空间
2025-12-27 07:39:00
装有红酒的纸箱从1米多的高度多次抛下,又被送入抗压测试机内,接受300公斤的压力测试,再经斜面冲击台俯冲撞向铁板,红酒依然完好无损……经过这一系列流程
2025-12-27 07:39:00
近日,智联招聘发布的《2025雇佣关系趋势报告》显示,78.2%的职场人每周至少使用一次AI工具开展工作。该《报告》基于大量调研问卷生成
2025-12-27 07:39:00
北京2026人形机器人半马全面升级
原标题:北京2026人形机器人半马全面升级明年4月19日开启“人机共跑” 赛事报名通道正式开启2025年4月19日,北京亦庄半程马拉松暨人形机器人半程马拉松在北京亦庄鸣枪开跑
2025-12-26 15:22:00
2025年12月25日,智能便携按摩器企业倍轻松(688793.SH)披露公告显示,公司及实际控制人马学军因涉嫌信息披露违法违规
2025-12-26 16:02:00
肥乡联社始终坚守“以客户为中心”的服务理念,立足县域金融服务实际,以“精细化”为核心抓手,从环境优化、能力提升、特色服务三个维度发力
2025-12-26 16:37:00
日前,中国人寿保险股份有限公司(以下简称“中国人寿”,股票代码:601628.SH,2628.HK)首届AI大模型竞赛在该公司科技园成功举办
2025-12-26 16:52:00
匠心筑梦 智启新程---华夏银行临沂分行2025年度私人银行客户私享峰会圆满落幕
鲁网12月26日讯2025年12月12日,华夏银行临沂分行2025年度私人银行客户私享峰会于国金中心荣耀启幕。十六位精英客户应邀赴约
2025-12-26 17:00:00
博士创新站典型案例|河北易达核联机械制造股份有限公司博士创新站:引领核电装备国产化新突破
在全球能源清洁低碳转型的浪潮中,核电凭借稳定高效的特性,战略地位愈发凸显,事关国家能源安全与产业未来。面对核电高端套筒长期依赖进口
2025-12-26 17:22:00
在无机盐镁质新材料领域,轻质高纯氧化镁是新能源电池、电子陶瓷等高端产业不可或缺的核心基础材料,其核心技术长期被发达国家企业垄断
2025-12-26 17:23:00
博士创新站典型案例|容创未来(沧州)新能源有限公司博士创新站:为区域经济高质量发展注入科技动能
容创未来(沧州)新能源有限公司获批建设河北省博士创新站推动“教学—科研—产业”三方联动为区域经济高质量发展注入科技动能前不久
2025-12-26 17:31:00
博士创新站典型案例|河北创鉴科技集团有限公司博士创新站:为物流产业注入“数智力”
我国物流行业正处于数字化、智能化转型关键期,降本增效与技术升级的双重需求驱动行业变革。当前,中小物流企业普遍面临技术落地难
2025-12-26 17:33:00
湖南和硕智联:智能制造引领鞋业新风尚(图)
在湘中腹地隆回县东南工业园区,一家现代化的制鞋企业正以令人瞩目的姿态快速发展。湖南和硕智联运动用品有限公司,作为香港永京集团在华中地区的重要布局
2025-12-26 17:34:00