• 我的订阅
  • 科技

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

类别:科技 发布时间:2024-12-02 09:51:00 来源:量子位

LLM可以比科学家更准确地预测神经学的研究结果!

最近,来自伦敦大学学院、剑桥大学、牛津大学等机构的团队发布了一个神经学专用基准BrainBench,登上了Nature子刊《自然人类行为(Nature human behavior)》。

结果显示,经过该基准训练的LLM在预测神经科学结果的准确度方面高达81.4%,远超人类专家的63%。

在神经学常见的5个子领域:行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中,LLM的表现也都全方位超过了人类专家。

更重要的是,这些模型被证实对于数据没有明显的记忆。

也就是说,它们已经掌握了一般科研的普遍模式,可以做更多的前瞻性(Forward-looking)预测、预测未知的事物。

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

这立马引发科研圈的围观。

多位教授和博士后博士后也表示,以后就可以让LLM帮忙判断更多研究的可行性了,nice!

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

LLM预测能力全面超越人类专家

让我们先来看看论文的几个重要结论:

总体结果:LLMs在BrainBench上的平均准确率为81.4%,而人类专家的平均准确率63.4%。LLMs的表现显著优于人类专家

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

子领域表现:在神经科学的几个重要的子领域:行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中,LLMs在每个子领域的表现均优于人类专家,特别是在行为认知和系统/回路领域。

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

模型对比:较小的模型如Llama2-7B和Mistral-7B与较大的模型表现相当,而聊天或指令优化模型的表现不如其基础模型。

人类专家的表现:大多数人类专家是博士学生、博士后研究员或教职员工。当限制人类响应为自我报告专业知识的最高20%时,准确率上升到66.2%,但仍低于LLMS。

置信度校准:LLMs和人类专家的置信度都校准良好,高置信度的预测更有可能是正确的。

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

记忆评估:没有迹象表明LLMs记忆了BrainBench项目。使用zlib压缩率和困惑度比率的分析表明,LLMs学习的是广泛的科学模式,而不是记忆训练数据。

全新神经学基准

本论文的一个重要贡献,就是提出了一个前瞻性的基准测试BrainBench,可以专门用于评估LLM在预测神经科学结果方面的能力。

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

那么,具体是怎么做到的呢?

数据收集

首先,团队利用PubMed获取了2002年至2022年间332807篇神经科学研究相关的摘要,从PubMed Central Open Access Subset(PMC OAS)中提取了123085篇全文文章,总计13亿个tokens。

评估LLM和人类专家

其次,在上面收集的数据的基础上,团队为BrainBench创建了测试用例,主要通过修改论文摘要来实现。

具体来说,每个测试用例包括两个版本的摘要:一个是原始版本,另一个是经过修改的版本。修改后的摘要会显著改变研究结果,但保持整体连贯性。

测试者的任务是选择哪个版本包含实际的研究结果。

团队使用Eleuther Al Language Model EvaluationHaress框架,让LLM在两个版本的摘要之间进行选择,通过困惑度(perplexity)来衡量其偏好。困惑度越低,表示模型越喜欢该摘要。

对人类专家行为的评估也是在相同测试用例上进行选择,他们还需要提供自信度和专业知识评分。最终参与实验的神经科学专家有171名。

实验使用的LLM是经过预训练的Mistral-7B-v0.1模型。通过LoRA技术进行微调后,准确度还能再增加3%。

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

评估LLM是否纯记忆

为了衡量LLM是否掌握了思维逻辑,团队还使用zlib压缩率和困惑度比率来评估LLMs是否记忆了训练数据。公式如下:

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

其中,ZLIB(X)表示文本X的zlib压缩率,PPL(X)表示文本X的困惑度。

部分研究者认为只能当作辅助

这篇论文向我们展示了神经科学研究的一个新方向,或许未来在前期探索的时候,神经学专家都可以借助LLM的力量进行初步的科研想法筛选,剔除一些在方法、背景信息等方面存在明显问题的计划等。

但同时也有很多研究者对LLM的这个用法表示了质疑。

有人认为实验才是科研最重要的部分,任何预测都没什么必要:

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

还有研究者认为科研的重点可能在于精确的解释。

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

此外,也有网友指出实验中的测试方法只考虑到了简单的AB假设检验,真实研究中还有很多涉及到平均值/方差的情况。

科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊

整体来看,这个研究对于神经学科研工作的发展还是非常有启发意义的,未来也有可能扩展到更多的学术研究领域。

研究人员们怎么看呢?

参考链接:[1]https://www.nature.com/articles/s41562-024-02046-9#author-information[2]https://github.com/braingpt-lovelab/BrainBench

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-02 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...后的版本,在不改变方法和背景的情况下,大幅改变研究结论。比如说,与原始摘要相比,变更后的摘要可能会交换两个大脑区域在结果中的作用,反转结果的方向(将「减少」替换为「增加」)等
2024-12-09 09:50:00
限定120分钟科研挑战,o1和Claude表现超越人类
...追不上人类。时间拉得更长(至32小时)之后,研究得出结论,目前AI智能体更适合并行处理大量独立短实验。看完上述结果
2024-11-26 09:46:00
科学周刊|新研发的视觉假体为失明患者带来福音 未来或将有“超级视觉”
...使盲人获得视觉感知能力。动物试验通过视觉行为表现获结论华商报:在小鼠和猴子实验里,它们是怎么表现出“恢复视力”的?杜兆江:小鼠和猴子这些实验动物虽然没法自己配合检测视力,但是
2025-06-10 18:06:00
神经领域专家学者共聚遵义,探讨脑炎精准医学之路
...·2024年中国脑炎大会在遵义举行,来自全国各地的230余名神经领域专家学者,围绕脑炎诊疗、基础研究和最新诊治技术应用等方面进行深入交流,通过专题讨论以及病例汇报等形式,加强
2024-08-10 20:07:00
...也会因比较不当而生成误导性的结果。在撰写论文和评估结论时,它还可能会犯严重错误。例如,它很难比较两个数字的大小,这是大语言模型的“通病”。为了部分解决这个问题,研究团队确保所
2024-09-12 07:47:00
核桃改善记忆力获七大科学实证,六个核桃迈入产业发展新里程
...饮用含24g核桃的核桃乳对记忆有显著的正向作用”的重要结论。这次《核桃与脑健康科学》经过系统的梳理,从7个方面全面地阐述了核桃改善记忆力的科学原理,为核桃这个“智慧果”提供了
2024-08-12 11:22:00
科技的力量绽放光芒 金凤实验室发布6项科技成果
...凤实验室精准诊断中心负责人徐忆发布了“中国人群中枢神经系统肿瘤甲基化聚类图谱”这一科技成果。 徐忆在接受上游新闻记者采访时表示,中枢神经系统肿瘤是所有癌症当中最难诊断分型和
2024-10-22 23:35:00
第五范式迎面来,AI向善很关键
...I向善”至关重要。先进的AI可以写论文、拿数据,对观察结论进行分析处理,与普通学者写出来的论文水平持平。在这样的情况下,该如何确定作者身份?类似一系列新问题也将随之出现。正是
2023-11-08 06:44:00
欣安得益生菌新品发布:源自高原的首株原籍精神益生菌YH1136 科学助力全民精神健康新方案
...公开发表SCI收录文章20余篇,得到了一系列有意义的研究结论,为成果转化奠定了扎实理论基础。为确保安全性,科研团队对YH1136进行了严格的毒理学评估,包括经口毒性测试、脏器
2025-06-12 21:24:00
更多关于科技的资讯:
新发路观察+|“文化+”背后的吉林机遇
盛夏,7月下旬。第五届中国新电商大会如约而至。中国吉林网注意到,在本届中国新电商大会上,很多来自文化产业的从业者汇聚而至
2025-08-01 14:29:00
纳美科学电动双管双组份牙膏推动行业进入技术性革命
据中国口腔清洁护理用品工业协会《2024年中国口腔护理行业白皮书》显示:中国美白牙膏市场规模达217.3亿元,占牙膏总市场54
2025-08-01 14:43:00
跨界破圈迎增长,30周年重磅献礼 开启家居产业新纪元
——2025浦东家具家居双展9月启幕,规模逆势扩张,看点多元升级在当下挑战与机遇并存的全球经贸环境下,由中国家具协会与上海博华展览有限公司举办的中国国际家具展览会迎来了30周年的荣耀时刻
2025-08-01 14:43:00
为持续提升柜面服务效率与客户体验,锻造一支业务精湛、服务高效的运营队伍,近日,南京银行连云港分行举办了2025年度运营条线业务技能竞赛的首阶段竞技活动——汉字录入与数字录入项目现场测评
2025-08-01 14:52:00
WAIC 2025:开普勒大黄蜂挑战8小时直播圆满收官,引领具身智能商业化新征程
7月26日-29日,2025世界人工智能大会暨人工智能全球治理高级别会议(简称"WAIC 2025")在上海举行。大会聚焦人工智能发展的关键命题
2025-08-01 15:13:00
不少消费者都接到过各种营销电话,有的营销电话还是用普通电话号码打过来的,让人防不胜防。为落实“信息通信暖心服务实事”,解决用户反映突出的通信业务电话营销虚假宣传
2025-08-01 15:33:00
微信提现手续费下限调为0.01元,客服称7月25日进行了更新
近日,有网友发帖称:微信提现手续费下限调为0.01元。对此,腾讯客服表示,7月25日进行了全量更新。单笔服务费小于0.01元的
2025-08-01 15:42:00
烟台餐饮企业力挺外卖平台良性竞争,激发消费烟火气
7月28日,由山东烟台市场监管部门指导,烟台市餐饮与住宿行业协会主办的“强化政企、监协合作,推动正餐品牌数字化转型”商家座谈会落地
2025-08-01 15:43:00
宋轶、李一桐代言难逃“差评” 《这城有良田》虚假宣传、未保缺失如何解?
消费日报网讯(记者 王鑫坤)“适合本地宝宝体质的种地游戏!”“都搁这种地是吧,我也来!”“一起体验做城主的快感吧!”经常刷短视频的消费者
2025-08-01 15:55:00
龙湖烟台龙口天街巨幅海报震撼亮相,官宣9月30日盛大开业!
8月1日,一幅气势恢宏的巨幅海报在龙口城市核心区的高楼上震撼呈现,瞬间成为全城瞩目的焦点!这正是备受期待的龙湖烟台龙口天街官宣盛大开业时间而精心打造的视觉地标
2025-08-01 15:58:00
BBA“智驾同盟”现象观察:合资豪车如何在中国找到技术突围口?
近期,宝马集团正式宣布与智能驾驶公司Momenta达成战略合作,计划在国产新世代车型上搭载其智能驾驶方案。至此,奔驰、宝马
2025-08-01 15:58:00
快速发展的坚蛋运动:创新、共赢与服务的制胜之道
在健身行业大变革的当下,能一直稳定增长的品牌,必然有其过人之处。作为近年具有行业代表性的健身品牌,坚蛋运动既没有依赖传统健身品牌的重资产扩张路径
2025-08-01 16:00:00
湖里区四家企业获厦门市专利奖东南网8月1日讯(海峡导报记者 林少蓉 通讯员 阮腮媚 陈琼英)第十届厦门市专利奖获奖名单近日揭晓
2025-08-01 16:05:00
以“场景矩阵化”破局,桃李面包用实际行动展现品牌实力
烘焙食品的消费场景正经历多元化转变——从传统正餐延伸至日常加餐、休闲零食、DIY制作等多个维度,聚会、出游等休闲场景增长也为行业带来全新机遇
2025-08-01 16:06:00
中欧游戏企业在沪对话,完美世界分享“东西互鉴”合作新方向
伊迪阐述了中国游戏产业与欧洲的互动与演进,并结合未来趋势,提出AI技术协同、跨文化创意共创、全球化人才培养三大方向深化合作
2025-08-01 16:06:00