• 我的订阅
  • 科技

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

类别:科技 发布时间:2024-12-09 09:50:00 来源:新智元

【新智元导读】知识密集型工作也败了!大型语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。

在现代化工具的帮助下,科研人员的群体规模、效率都有显著提升,发表科学文献的数量几乎是呈指数级增长,而人类的阅读效率却几乎没有提升,新入行的研究人员一下子就要面对过去数十年的研究成果。

为了更快地掌握行业动态,研究者往往会考虑优先阅读那些更知名的、影响力更大的论文,从而会忽视掉很多潜在的、具有颠覆性的发现。

以ChatGPT为首的大模型算是一个很有潜力的辅助阅读、科研的解决方案,其通用能力覆盖了专业考试、有限推理、翻译、解决数学问题,甚至还能写代码。

已有的研究考察了大模型在科研领域的表现,但基准数据集大多属于「回顾性质」的,比如MMLU、PubMedQA和MedMCQA,主要以问答的形式来评估模型的核心知识检索和推理能力,

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

然而,这些基准都不适合评估模型前瞻的能力,辅助科研需要整合嘈杂但相互关联的发现,比人类专家更擅长预测新结果。

最近,伦敦大学学院(UCL)的研究人员在Nature Human Behaviour期刊上发布了一个前瞻性基准BrainBench,在神经科学领域考察模型的预测能力。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

论文链接:https://www.nature.com/articles/s41562-024-02046-9

结果发现,大模型的表现远远超越了人类专家水平,平均准确率达到了81%,而人类的平均准确率只有63%

即使研究团队将人类的反馈限制为仅对特定神经科学领域、具有最高专业知识的人,神经科学家的准确率仍然低于大模型,为 66%

和人类专家类似的是,如果大模型对预测结果表示具有高度自信时,回答结果的正确率也更高,也就是说,大模型完全可以辅助人类做科研新发现。

最重要的是,这种方法并不特定于某一个学科,其他知识密集型任务上也可以使用。

科研结果预测

即使是人类专家,在神经科学领域进行预测时,仍然是非常有挑战性的,主要有五个难题:

1. 领域内通常有成千上万篇的相关科学论文;

2. 存在个别不可靠的研究结果,可能无法复制;

3. 神经科学是跨领域学科(multi-level endeavour),涵盖行为(behaviour)和分子机制(molecular mechanisms);

4. 分析方法多样且可能非常复杂;

5. 可用的实验方法很多,包括不同的脑成像技术、损伤研究、基因修改、药理干预等。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

为了满足对大模型的测试需要,针对上述难题,研究人员开发的BrainBench基准总共纳入了200个由人类专家精心设计的、2023年发表在《神经科学杂志》上的测试案例,以及额外100个由GPT-4生成的测试案例,涵盖了五个神经科学领域:行为/认知、系统/回路、疾病神经生物学、细胞/分子以及发展/可塑性/修复。

对于每个测试案例,研究人员会修改已发表的摘要,创建一个变更后的版本,在不改变方法和背景的情况下,大幅改变研究结论。

比如说,与原始摘要相比,变更后的摘要可能会交换两个大脑区域在结果中的作用,反转结果的方向(将「减少」替换为「增加」)等。任何改动都需要保持摘要的连贯性,有时还需要进行多次改动(比如将多个减少替换为增加)。

也就是说,变更后的摘要需要在实证上有所不同,但逻辑上并不矛盾。

测试者需要在原始摘要和修改版本之间做出选择,人类专家和大型语言模型的任务是从两个选项中选择正确的,即原始版本;人类专家需要做出选择,并提供信心和专业水平的评分;大型语言模型则根据选择的摘要的困惑度(即模型认为文本段落的惊讶程度较低)来评分,自信程度与两个选项之间困惑度差异成正比。

部分GPT-4提示如下:

你的任务是修改一篇神经科学研究论文的摘要,使得修改后的内容显著改变研究结果,但不改变方法和背景。这样我们可以测试人工智能对摘要主题领域的理解能力。 ... ... 摘要的开头是背景和方法,所以这部分摘要不应被修改。不要改变前几句话。 我们希望摘要在实证上是错误的,但逻辑上并不矛盾。 要找到论文的原始结果,需要一些神经科学的洞察力,而不仅仅是一般的推理能力。因此,你所做的修改不应该评估人工智能的推理能力,而是它对神经科学和大脑工作原理的知识。 注意不要做出改变结果但可能在作者的研究中仍然发生的修改。例如,关于学习的fMRI摘要可能提到海马体而不是纹状体。然而,纹状体可能也是活跃的,但没有在摘要中报告,因为它不是研究的重点。 你所做的修改不应该从摘要的其余部分被识别或解码出来。因此,如果你做了修改,确保你改变了所有可以揭示原始摘要的内容。 在你改变单词时注意冠词的使用(a/an)。 确保你的修改保持句子间的一致性和正确的语法,修改不应该与摘要的整体意义相矛盾或混淆。 避免进行不需要理解科学概念的琐碎修改,修改应该反映出对主题的深刻理解。 在进行修改时,不要错过摘要中的任何重要结果或发现。每一个重要点都应该在你的修改中得到体现。

实验结果

人类神经科学专家经过专业能力和参与度的筛选,共有171名参与者通过了所有检查并被纳入分析结果,大多数人类专家是博士生、博士后研究员或教职/学术人员。

在BrainBench上,大型语言模型的性能表现都超过了人类专家,平均准确率为81.4%,而人类专家的平均准确率为63.4%;当把人类回答限制在那些自报专业水平在前20%的测试项时,准确率上升到了66.2%,但仍然低于大型语言模型的水平。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

参数较小的模型,比如70亿参数的Llama2-7B和Mistral-7B,表现得与更大的模型相当,其性能也比尺寸更小的模型要好,小模型可能缺乏捕捉关键数据模式的能力;而为聊天或指令优化的模型表现得比基准模型要差。

研究人员推测,让大型语言模型适应自然语言对话可能会阻碍其科学推理能力。

按子领域和参与者类型划分时,大型语言模型在每个子领域中的表现也都优于人类专家。

在测试时,为了防止基准测试本身可能是训练集的一部分,研究人员采用zlib-perplexity ratio(困惑度比率)来评估大型语言模型是否记住了某些段落。

该值可以衡量文本数据不可知压缩率与大型语言模型计算的特定数据困惑度之间的差异,如果某个段落难以压缩,但模型给出的困惑度教低,就代表模型是通过记忆来回答问题。

从结果来看,没有迹象表明大型语言模型见过并记住了BrainBench

研究人员还进一步确认了大语言模型在2023年早些时候发表的项目上并没有表现得更好(2023年1月与10月相比)

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

总之,检查结果表明,对于大型语言模型来说,BrainBench的数据是新的,没见过的。

为了评估大型语言模型的预测是否经过校准,研究人员检查了置信度与准确性之间的关联性,结果发现与人类专家一样,所有大型语言模型都展现出准确性和置信度之间的正相关性。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

当大型语言模型对自己的决策有信心时,更有可能做出正确的选择。

此外,研究人员还在个体层面上拟合了模型困惑度差异与正确性之间的逻辑回归,以及人类置信度与正确性之间的逻辑回归,能够观察到显著的正相关性,证实了模型和人类都是经过校准的。

参考资料:

https://www.nature.com/articles/s41562-024-02046-9

https://x.com/kimmonismus/status/1861791352142348563

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-09 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“上天”“入地”“下海” AI驱动中国科学创新加速前行
...了卓越的性能,尤其是在X级耀斑的预测上,达到了95%的准确率和100%的真实阳性率。“入地”对中国科学院的科研人员来说,做学问、做研究是他们的本分,分担国家重大任务是责任,为
2025-03-21 16:54:00
科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊
...论文的几个重要结论:总体结果:LLMs在BrainBench上的平均准确率为81.4%,而人类专家的平均准确率63
2024-12-02 09:51:00
...类一样“理解”事物?传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正“理解”物体含义。“当前人工智能可以区分猫狗图片,但这种‘识别’与人类‘理解’猫狗有什么本质区
2025-06-11 08:47:00
讯飞星火首发智能体平台,敏捷触达大模型应用企业落地最后一公里
...模型消耗的运算资源非常大。为了解决大模型应用效率和准确率问题,刘庆峰谈道,基于讯飞星火V3.5对长文本的理解、学习、回答能力,科大讯飞进行了重要的模型剪枝和蒸馏,从而推出业界
2024-04-26 11:44:00
突破复杂版面及图表解析难题,合合信息“大模型加速器”再升级
...库的构建基于大量文档的文本信息提取,需要高效率、高准确率的工具。合合信息文档解析技术提供了专业的技术支持和服务,有效解决了文档处理过程中的问题。 在“大模型加速器”的支持下
2025-03-24 15:46:00
chatgpt教你写ai包教包会,准确度最高达99.7%
...25岁小哥,让ChatGPT帮他创建了个地理位置识别程序,最终准确率最高达99.7%。而且各种细节步骤全在,一边干活还一边教你学习
2023-02-08 23:47:00
业内首个!京东发布“AI京医”大模型:准确率达99.5%
...和误诊率。官方介绍称,目前,“AI诊疗助手2.0”的分诊准确率达到99.5%,电子病历书写效率提升120%,AI一次问题解决率超90%
2025-01-11 21:21:00
AI诊断抑郁症,准确率高达97.53%的秘诀何在?
...结合语音和大脑活动数据后,这个模型在诊断抑郁症时的准确率高达97.53%,比其他方法都要好得多。“这是因为语音里有很多我们现在还无法从大脑里直接得到的信息
2024-11-23 14:12:00
...,此次推出的地震诱发滑坡近实时智能预测模型平均预测准确率达82%,比国际现有模型准确率提高了约20%,计算时间由原来的数天,缩短到小于1分钟,实现了地震诱发地质灾害的近实时预
2025-05-10 20:17:00
更多关于科技的资讯:
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00
10月1日,从太钢获悉,今年以来,太钢不锈进料加工团队以“精准备案、高效协同”为核心,在进料铬铁镍铁资源利用方面取得突破性进展
2025-10-02 17:39:00
厦门网讯(厦门日报记者 林露虹)记者昨日从中国移动咪咕公司获悉,该公司打造的“鼓浪屿AI伴游”服务已正式上线。市民和游客只需打开“鼓浪屿元宇宙”微信小程序
2025-10-02 08:57:00