• 我的订阅
  • 科技

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

类别:科技 发布时间:2024-12-09 09:50:00 来源:新智元

【新智元导读】知识密集型工作也败了!大型语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。

在现代化工具的帮助下,科研人员的群体规模、效率都有显著提升,发表科学文献的数量几乎是呈指数级增长,而人类的阅读效率却几乎没有提升,新入行的研究人员一下子就要面对过去数十年的研究成果。

为了更快地掌握行业动态,研究者往往会考虑优先阅读那些更知名的、影响力更大的论文,从而会忽视掉很多潜在的、具有颠覆性的发现。

以ChatGPT为首的大模型算是一个很有潜力的辅助阅读、科研的解决方案,其通用能力覆盖了专业考试、有限推理、翻译、解决数学问题,甚至还能写代码。

已有的研究考察了大模型在科研领域的表现,但基准数据集大多属于「回顾性质」的,比如MMLU、PubMedQA和MedMCQA,主要以问答的形式来评估模型的核心知识检索和推理能力,

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

然而,这些基准都不适合评估模型前瞻的能力,辅助科研需要整合嘈杂但相互关联的发现,比人类专家更擅长预测新结果。

最近,伦敦大学学院(UCL)的研究人员在Nature Human Behaviour期刊上发布了一个前瞻性基准BrainBench,在神经科学领域考察模型的预测能力。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

论文链接:https://www.nature.com/articles/s41562-024-02046-9

结果发现,大模型的表现远远超越了人类专家水平,平均准确率达到了81%,而人类的平均准确率只有63%

即使研究团队将人类的反馈限制为仅对特定神经科学领域、具有最高专业知识的人,神经科学家的准确率仍然低于大模型,为 66%

和人类专家类似的是,如果大模型对预测结果表示具有高度自信时,回答结果的正确率也更高,也就是说,大模型完全可以辅助人类做科研新发现。

最重要的是,这种方法并不特定于某一个学科,其他知识密集型任务上也可以使用。

科研结果预测

即使是人类专家,在神经科学领域进行预测时,仍然是非常有挑战性的,主要有五个难题:

1. 领域内通常有成千上万篇的相关科学论文;

2. 存在个别不可靠的研究结果,可能无法复制;

3. 神经科学是跨领域学科(multi-level endeavour),涵盖行为(behaviour)和分子机制(molecular mechanisms);

4. 分析方法多样且可能非常复杂;

5. 可用的实验方法很多,包括不同的脑成像技术、损伤研究、基因修改、药理干预等。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

为了满足对大模型的测试需要,针对上述难题,研究人员开发的BrainBench基准总共纳入了200个由人类专家精心设计的、2023年发表在《神经科学杂志》上的测试案例,以及额外100个由GPT-4生成的测试案例,涵盖了五个神经科学领域:行为/认知、系统/回路、疾病神经生物学、细胞/分子以及发展/可塑性/修复。

对于每个测试案例,研究人员会修改已发表的摘要,创建一个变更后的版本,在不改变方法和背景的情况下,大幅改变研究结论。

比如说,与原始摘要相比,变更后的摘要可能会交换两个大脑区域在结果中的作用,反转结果的方向(将「减少」替换为「增加」)等。任何改动都需要保持摘要的连贯性,有时还需要进行多次改动(比如将多个减少替换为增加)。

也就是说,变更后的摘要需要在实证上有所不同,但逻辑上并不矛盾。

测试者需要在原始摘要和修改版本之间做出选择,人类专家和大型语言模型的任务是从两个选项中选择正确的,即原始版本;人类专家需要做出选择,并提供信心和专业水平的评分;大型语言模型则根据选择的摘要的困惑度(即模型认为文本段落的惊讶程度较低)来评分,自信程度与两个选项之间困惑度差异成正比。

部分GPT-4提示如下:

你的任务是修改一篇神经科学研究论文的摘要,使得修改后的内容显著改变研究结果,但不改变方法和背景。这样我们可以测试人工智能对摘要主题领域的理解能力。 ... ... 摘要的开头是背景和方法,所以这部分摘要不应被修改。不要改变前几句话。 我们希望摘要在实证上是错误的,但逻辑上并不矛盾。 要找到论文的原始结果,需要一些神经科学的洞察力,而不仅仅是一般的推理能力。因此,你所做的修改不应该评估人工智能的推理能力,而是它对神经科学和大脑工作原理的知识。 注意不要做出改变结果但可能在作者的研究中仍然发生的修改。例如,关于学习的fMRI摘要可能提到海马体而不是纹状体。然而,纹状体可能也是活跃的,但没有在摘要中报告,因为它不是研究的重点。 你所做的修改不应该从摘要的其余部分被识别或解码出来。因此,如果你做了修改,确保你改变了所有可以揭示原始摘要的内容。 在你改变单词时注意冠词的使用(a/an)。 确保你的修改保持句子间的一致性和正确的语法,修改不应该与摘要的整体意义相矛盾或混淆。 避免进行不需要理解科学概念的琐碎修改,修改应该反映出对主题的深刻理解。 在进行修改时,不要错过摘要中的任何重要结果或发现。每一个重要点都应该在你的修改中得到体现。

实验结果

人类神经科学专家经过专业能力和参与度的筛选,共有171名参与者通过了所有检查并被纳入分析结果,大多数人类专家是博士生、博士后研究员或教职/学术人员。

在BrainBench上,大型语言模型的性能表现都超过了人类专家,平均准确率为81.4%,而人类专家的平均准确率为63.4%;当把人类回答限制在那些自报专业水平在前20%的测试项时,准确率上升到了66.2%,但仍然低于大型语言模型的水平。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

参数较小的模型,比如70亿参数的Llama2-7B和Mistral-7B,表现得与更大的模型相当,其性能也比尺寸更小的模型要好,小模型可能缺乏捕捉关键数据模式的能力;而为聊天或指令优化的模型表现得比基准模型要差。

研究人员推测,让大型语言模型适应自然语言对话可能会阻碍其科学推理能力。

按子领域和参与者类型划分时,大型语言模型在每个子领域中的表现也都优于人类专家。

在测试时,为了防止基准测试本身可能是训练集的一部分,研究人员采用zlib-perplexity ratio(困惑度比率)来评估大型语言模型是否记住了某些段落。

该值可以衡量文本数据不可知压缩率与大型语言模型计算的特定数据困惑度之间的差异,如果某个段落难以压缩,但模型给出的困惑度教低,就代表模型是通过记忆来回答问题。

从结果来看,没有迹象表明大型语言模型见过并记住了BrainBench

研究人员还进一步确认了大语言模型在2023年早些时候发表的项目上并没有表现得更好(2023年1月与10月相比)

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

总之,检查结果表明,对于大型语言模型来说,BrainBench的数据是新的,没见过的。

为了评估大型语言模型的预测是否经过校准,研究人员检查了置信度与准确性之间的关联性,结果发现与人类专家一样,所有大型语言模型都展现出准确性和置信度之间的正相关性。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

当大型语言模型对自己的决策有信心时,更有可能做出正确的选择。

此外,研究人员还在个体层面上拟合了模型困惑度差异与正确性之间的逻辑回归,以及人类置信度与正确性之间的逻辑回归,能够观察到显著的正相关性,证实了模型和人类都是经过校准的。

参考资料:

https://www.nature.com/articles/s41562-024-02046-9

https://x.com/kimmonismus/status/1861791352142348563

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-09 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“上天”“入地”“下海” AI驱动中国科学创新加速前行
...了卓越的性能,尤其是在X级耀斑的预测上,达到了95%的准确率和100%的真实阳性率。“入地”对中国科学院的科研人员来说,做学问、做研究是他们的本分,分担国家重大任务是责任,为
2025-03-21 16:54:00
科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊
...论文的几个重要结论:总体结果:LLMs在BrainBench上的平均准确率为81.4%,而人类专家的平均准确率63
2024-12-02 09:51:00
...类一样“理解”事物?传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正“理解”物体含义。“当前人工智能可以区分猫狗图片,但这种‘识别’与人类‘理解’猫狗有什么本质区
2025-06-11 08:47:00
讯飞星火首发智能体平台,敏捷触达大模型应用企业落地最后一公里
...模型消耗的运算资源非常大。为了解决大模型应用效率和准确率问题,刘庆峰谈道,基于讯飞星火V3.5对长文本的理解、学习、回答能力,科大讯飞进行了重要的模型剪枝和蒸馏,从而推出业界
2024-04-26 11:44:00
突破复杂版面及图表解析难题,合合信息“大模型加速器”再升级
...库的构建基于大量文档的文本信息提取,需要高效率、高准确率的工具。合合信息文档解析技术提供了专业的技术支持和服务,有效解决了文档处理过程中的问题。 在“大模型加速器”的支持下
2025-03-24 15:46:00
全球首个百亿级人类基因组基础模型Genos发布!
...任务中,实现了92%的准确性,当结合021科学基础模型后,准确率更是高达98.3%,为临床诊断提供了全新的高效工具。综合多项评测结果,Genos在各项核心任务中的表现均全面超
2025-10-24 13:21:00
chatgpt教你写ai包教包会,准确度最高达99.7%
...25岁小哥,让ChatGPT帮他创建了个地理位置识别程序,最终准确率最高达99.7%。而且各种细节步骤全在,一边干活还一边教你学习
2023-02-08 23:47:00
AI诊断抑郁症,准确率高达97.53%的秘诀何在?
...结合语音和大脑活动数据后,这个模型在诊断抑郁症时的准确率高达97.53%,比其他方法都要好得多。“这是因为语音里有很多我们现在还无法从大脑里直接得到的信息
2024-11-23 14:12:00
业内首个!京东发布“AI京医”大模型:准确率达99.5%
...和误诊率。官方介绍称,目前,“AI诊疗助手2.0”的分诊准确率达到99.5%,电子病历书写效率提升120%,AI一次问题解决率超90%
2025-01-11 21:21:00
更多关于科技的资讯:
从管理执行转向双向赋能每日商报讯 近日,“人机共生·智启未来”2025中国年度最佳雇主长三角颁奖活动在上海虹桥国际中央商务区举行
2026-01-21 07:28:00
量质齐升 破局前行每日商报讯 杭州海关最新统计数据显示,2025年浙江省进出口总值达5.55万亿元,同比增长5.4%,高出全国1
2026-01-21 07:28:00
曹一琳摘要:当前,市场经济深化发展,人力资源管理效率成为影响国有企业核心竞争力的关键因素。研究表明,高效的人力资源管理能够助力国有企业优化人才结构
2026-01-21 06:55:00
用AI技术为青少年心理“把脉”!这一项目成功入围2026年度河南省科技攻关项目
大河网讯 近日,河南省科学技术厅公示 2026年度河南省科技攻关拟立项项目,由科创联达(河南)科技有限公司与中原工学院联合申报的“多模态融合与大语言模型驱动的青少年心理健康智能监测研究”项目入选
2026-01-20 22:45:00
张宣科技:科技驱动打造绿色低碳新能源标杆
图为张宣科技技术骨干正在对水系统设备进行全面巡视检查。于飞摄河北新闻网讯(王杨、马薇)打造全球领先的绿氢绿能耦合冶金示范
2026-01-20 17:17:00
聚焦临沂两会」临沂市政协委员许金龙:以科技创新引领标志性产业链高质量发展
鲁网1月20日讯“抢抓人工智能战略风口,以科技创新为核心引擎赋能产业升级,推动我市标志性产业链向高端化、智能化、绿色化方向提质进阶
2026-01-20 17:23:00
中国消费者报北京讯(记者裴莹)1月19日,荣耀与泡泡玛特合作推出的“荣耀500 Pro MOLLY 20周年限定版”手机正式发布
2026-01-20 17:30:00
中国消费者报北京讯(记者孙蔚)近日,转转集团发布《2025二手消费年度洞察》(以下简称报告)。报告显示,05后成为二手消费新生力量
2026-01-20 17:30:00
中国消费者报北京讯(记者桑雪骐)1月19日,海信召开2026 RGB-Mini LED影游旗舰E8S新品发布会,正式推出影游旗舰E8S系列电视
2026-01-20 17:30:00
春节将至 在中国空间站怎么吃年夜饭?
中国消费者报报道(记者桑雪骐)航天员的手指轻轻按下一个特制设备的启动键,28分钟后,伴随着设备上的按键灯闪烁,取出的不是常见的复热食品袋
2026-01-20 18:00:00
大皖新闻讯 1月20日,记者从阜阳市商业局获悉,为全力推动“超级皖”美食争霸赛半决赛活动氛围,该市将发放60万元消费券
2026-01-20 18:14:00
宜兴市徐舍镇:厚植沃土育“小巨人”
近年来,徐舍镇持续优化营商环境,强化政策引导与服务保障,积极构建富有活力的产业生态,通过搭建产学研对接桥梁,推动技术、人才
2026-01-20 18:52:00
空降社渚!KFC&必胜客“双子星”来了,常州首家
社渚喜讯!常州首对餐饮“双子星”——肯德基与必胜客,即将同步落户社渚!二月初,开业倒计时正式启动,快乐进入双倍时代。从此小镇生活添了新滋味
2026-01-20 18:54:00
中新经纬1月20日电 19日,小红书正式上线《社区公约2.0》,在延续“真诚分享,友好互动”社区价值观的基础上,明确提出“反对制造对立”的倡导
2026-01-20 19:14:00