• 我的订阅
  • 科技

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

类别:科技 发布时间:2024-12-09 09:50:00 来源:新智元

【新智元导读】知识密集型工作也败了!大型语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。

在现代化工具的帮助下,科研人员的群体规模、效率都有显著提升,发表科学文献的数量几乎是呈指数级增长,而人类的阅读效率却几乎没有提升,新入行的研究人员一下子就要面对过去数十年的研究成果。

为了更快地掌握行业动态,研究者往往会考虑优先阅读那些更知名的、影响力更大的论文,从而会忽视掉很多潜在的、具有颠覆性的发现。

以ChatGPT为首的大模型算是一个很有潜力的辅助阅读、科研的解决方案,其通用能力覆盖了专业考试、有限推理、翻译、解决数学问题,甚至还能写代码。

已有的研究考察了大模型在科研领域的表现,但基准数据集大多属于「回顾性质」的,比如MMLU、PubMedQA和MedMCQA,主要以问答的形式来评估模型的核心知识检索和推理能力,

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

然而,这些基准都不适合评估模型前瞻的能力,辅助科研需要整合嘈杂但相互关联的发现,比人类专家更擅长预测新结果。

最近,伦敦大学学院(UCL)的研究人员在Nature Human Behaviour期刊上发布了一个前瞻性基准BrainBench,在神经科学领域考察模型的预测能力。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

论文链接:https://www.nature.com/articles/s41562-024-02046-9

结果发现,大模型的表现远远超越了人类专家水平,平均准确率达到了81%,而人类的平均准确率只有63%

即使研究团队将人类的反馈限制为仅对特定神经科学领域、具有最高专业知识的人,神经科学家的准确率仍然低于大模型,为 66%

和人类专家类似的是,如果大模型对预测结果表示具有高度自信时,回答结果的正确率也更高,也就是说,大模型完全可以辅助人类做科研新发现。

最重要的是,这种方法并不特定于某一个学科,其他知识密集型任务上也可以使用。

科研结果预测

即使是人类专家,在神经科学领域进行预测时,仍然是非常有挑战性的,主要有五个难题:

1. 领域内通常有成千上万篇的相关科学论文;

2. 存在个别不可靠的研究结果,可能无法复制;

3. 神经科学是跨领域学科(multi-level endeavour),涵盖行为(behaviour)和分子机制(molecular mechanisms);

4. 分析方法多样且可能非常复杂;

5. 可用的实验方法很多,包括不同的脑成像技术、损伤研究、基因修改、药理干预等。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

为了满足对大模型的测试需要,针对上述难题,研究人员开发的BrainBench基准总共纳入了200个由人类专家精心设计的、2023年发表在《神经科学杂志》上的测试案例,以及额外100个由GPT-4生成的测试案例,涵盖了五个神经科学领域:行为/认知、系统/回路、疾病神经生物学、细胞/分子以及发展/可塑性/修复。

对于每个测试案例,研究人员会修改已发表的摘要,创建一个变更后的版本,在不改变方法和背景的情况下,大幅改变研究结论。

比如说,与原始摘要相比,变更后的摘要可能会交换两个大脑区域在结果中的作用,反转结果的方向(将「减少」替换为「增加」)等。任何改动都需要保持摘要的连贯性,有时还需要进行多次改动(比如将多个减少替换为增加)。

也就是说,变更后的摘要需要在实证上有所不同,但逻辑上并不矛盾。

测试者需要在原始摘要和修改版本之间做出选择,人类专家和大型语言模型的任务是从两个选项中选择正确的,即原始版本;人类专家需要做出选择,并提供信心和专业水平的评分;大型语言模型则根据选择的摘要的困惑度(即模型认为文本段落的惊讶程度较低)来评分,自信程度与两个选项之间困惑度差异成正比。

部分GPT-4提示如下:

你的任务是修改一篇神经科学研究论文的摘要,使得修改后的内容显著改变研究结果,但不改变方法和背景。这样我们可以测试人工智能对摘要主题领域的理解能力。 ... ... 摘要的开头是背景和方法,所以这部分摘要不应被修改。不要改变前几句话。 我们希望摘要在实证上是错误的,但逻辑上并不矛盾。 要找到论文的原始结果,需要一些神经科学的洞察力,而不仅仅是一般的推理能力。因此,你所做的修改不应该评估人工智能的推理能力,而是它对神经科学和大脑工作原理的知识。 注意不要做出改变结果但可能在作者的研究中仍然发生的修改。例如,关于学习的fMRI摘要可能提到海马体而不是纹状体。然而,纹状体可能也是活跃的,但没有在摘要中报告,因为它不是研究的重点。 你所做的修改不应该从摘要的其余部分被识别或解码出来。因此,如果你做了修改,确保你改变了所有可以揭示原始摘要的内容。 在你改变单词时注意冠词的使用(a/an)。 确保你的修改保持句子间的一致性和正确的语法,修改不应该与摘要的整体意义相矛盾或混淆。 避免进行不需要理解科学概念的琐碎修改,修改应该反映出对主题的深刻理解。 在进行修改时,不要错过摘要中的任何重要结果或发现。每一个重要点都应该在你的修改中得到体现。

实验结果

人类神经科学专家经过专业能力和参与度的筛选,共有171名参与者通过了所有检查并被纳入分析结果,大多数人类专家是博士生、博士后研究员或教职/学术人员。

在BrainBench上,大型语言模型的性能表现都超过了人类专家,平均准确率为81.4%,而人类专家的平均准确率为63.4%;当把人类回答限制在那些自报专业水平在前20%的测试项时,准确率上升到了66.2%,但仍然低于大型语言模型的水平。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

参数较小的模型,比如70亿参数的Llama2-7B和Mistral-7B,表现得与更大的模型相当,其性能也比尺寸更小的模型要好,小模型可能缺乏捕捉关键数据模式的能力;而为聊天或指令优化的模型表现得比基准模型要差。

研究人员推测,让大型语言模型适应自然语言对话可能会阻碍其科学推理能力。

按子领域和参与者类型划分时,大型语言模型在每个子领域中的表现也都优于人类专家。

在测试时,为了防止基准测试本身可能是训练集的一部分,研究人员采用zlib-perplexity ratio(困惑度比率)来评估大型语言模型是否记住了某些段落。

该值可以衡量文本数据不可知压缩率与大型语言模型计算的特定数据困惑度之间的差异,如果某个段落难以压缩,但模型给出的困惑度教低,就代表模型是通过记忆来回答问题。

从结果来看,没有迹象表明大型语言模型见过并记住了BrainBench

研究人员还进一步确认了大语言模型在2023年早些时候发表的项目上并没有表现得更好(2023年1月与10月相比)

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

总之,检查结果表明,对于大型语言模型来说,BrainBench的数据是新的,没见过的。

为了评估大型语言模型的预测是否经过校准,研究人员检查了置信度与准确性之间的关联性,结果发现与人类专家一样,所有大型语言模型都展现出准确性和置信度之间的正相关性。

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

当大型语言模型对自己的决策有信心时,更有可能做出正确的选择。

此外,研究人员还在个体层面上拟合了模型困惑度差异与正确性之间的逻辑回归,以及人类置信度与正确性之间的逻辑回归,能够观察到显著的正相关性,证实了模型和人类都是经过校准的。

参考资料:

https://www.nature.com/articles/s41562-024-02046-9

https://x.com/kimmonismus/status/1861791352142348563

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-09 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“上天”“入地”“下海” AI驱动中国科学创新加速前行
...了卓越的性能,尤其是在X级耀斑的预测上,达到了95%的准确率和100%的真实阳性率。“入地”对中国科学院的科研人员来说,做学问、做研究是他们的本分,分担国家重大任务是责任,为
2025-03-21 16:54:00
科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊
...论文的几个重要结论:总体结果:LLMs在BrainBench上的平均准确率为81.4%,而人类专家的平均准确率63
2024-12-02 09:51:00
...类一样“理解”事物?传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正“理解”物体含义。“当前人工智能可以区分猫狗图片,但这种‘识别’与人类‘理解’猫狗有什么本质区
2025-06-11 08:47:00
讯飞星火首发智能体平台,敏捷触达大模型应用企业落地最后一公里
...模型消耗的运算资源非常大。为了解决大模型应用效率和准确率问题,刘庆峰谈道,基于讯飞星火V3.5对长文本的理解、学习、回答能力,科大讯飞进行了重要的模型剪枝和蒸馏,从而推出业界
2024-04-26 11:44:00
突破复杂版面及图表解析难题,合合信息“大模型加速器”再升级
...库的构建基于大量文档的文本信息提取,需要高效率、高准确率的工具。合合信息文档解析技术提供了专业的技术支持和服务,有效解决了文档处理过程中的问题。 在“大模型加速器”的支持下
2025-03-24 15:46:00
chatgpt教你写ai包教包会,准确度最高达99.7%
...25岁小哥,让ChatGPT帮他创建了个地理位置识别程序,最终准确率最高达99.7%。而且各种细节步骤全在,一边干活还一边教你学习
2023-02-08 23:47:00
业内首个!京东发布“AI京医”大模型:准确率达99.5%
...和误诊率。官方介绍称,目前,“AI诊疗助手2.0”的分诊准确率达到99.5%,电子病历书写效率提升120%,AI一次问题解决率超90%
2025-01-11 21:21:00
AI诊断抑郁症,准确率高达97.53%的秘诀何在?
...结合语音和大脑活动数据后,这个模型在诊断抑郁症时的准确率高达97.53%,比其他方法都要好得多。“这是因为语音里有很多我们现在还无法从大脑里直接得到的信息
2024-11-23 14:12:00
...,此次推出的地震诱发滑坡近实时智能预测模型平均预测准确率达82%,比国际现有模型准确率提高了约20%,计算时间由原来的数天,缩短到小于1分钟,实现了地震诱发地质灾害的近实时预
2025-05-10 20:17:00
更多关于科技的资讯:
“组团作战”研发一种高品质汽车用钢创新联合体,解汽车制造业“痛点”日前,一个好消息从长城汽车股份有限公司传来:一种新研发的纯锌镀层热成形钢
2025-09-07 07:50:00
第六届金芦苇工业设计奖精品展开幕汇聚13个国家及地区的500余件佳作河北日报讯(见习记者李畅)9月1日,由雄安新区未来工业设计研究院主办
2025-09-06 08:32:00
近日,山大路街道山大社区联合芯赛博开展数码公益活动,围绕“免费、实用、贴心”,为居民提供0元贴膜、老旧照片AI修复、数码产品检测三项服务
2025-09-06 09:15:00
老乡鸡IPO:供应链协同力,食材管控体系获认可
近日,中式快餐品牌老乡鸡的IPO进程持续引发行业关注。作为门店数量超1500家的连锁餐饮企业,老乡鸡能在竞争激烈的快餐赛道站稳脚跟
2025-09-06 15:47:00
111大健康产业发展论坛走进北京同仁堂启动北京“店效王”孵化计划
当“健康中国2030”战略持续深化,大健康产业正迈向“品牌化、专业化、协同化”的新阶段。北京作为全国健康服务的前沿阵地
2025-09-06 15:49:00
解码鸿蒙有礼:华为砸下真金白银,花钱赚吆喝还是格局再打开?
9月4日,华为Mate XTs 非凡大师及全场景新品发布会在深圳召开,华为Mate XTs 非凡大师、华为智慧屏 Mate TV
2025-09-06 15:49:00
大皖新闻讯 九三阅兵期间,来自合肥高新区的四创电子提供了技术、设备、人员等多方面保障。他们分布在首都各区域,精准捕捉预测风
2025-09-06 17:26:00
从看砖头到看专利 贵阳市“科创积分贷”让科技型企业“知产”变现
“从提交申请到拿到贷款只用了两周多,申报材料比传统贷款少了三分之一,效率提高了50%!”近日,贵州捷众森建材有限公司董事长顾潘拿着“科创积分贷”到账凭证感慨道
2025-09-06 18:15:00
大河网讯 9月6日,细雨蒙蒙,湿润的空气中带着淡淡的江水气息,山城重庆显得格外宁静。可在重庆国际博览中心内却是另一番景象——2025世界智能产业博览会正在这里举办
2025-09-06 22:20:00
2025智博会“四链”融合对接暨“渝链通”发布活动成功举办 助力科创企业融资破局
大河网讯 9月6日,2025世界智能产业博览会“四链”融合对接活动——智能产业股权融资专题对接暨“渝链通”服务方案发布会在重庆国际博览中心圆满举行
2025-09-06 22:20:00
从茶叶到瓶装茶,小罐茶高香无糖茶加速传统茶企转型
健康消费升级持续推动市场扩容,无糖茶赛道正迎来众多品牌加码布局。尽管消费场景细分和产品升级带动无糖茶市场与受众不断扩大
2025-09-06 15:51:00
大河网讯 人工智能是新一轮科技革命和产业变革的重要驱动力量,对全球经济社会发展和人类文明进步产生了深远影响。9月5日,2025世界智能产业博览会在长江之畔重庆开幕
2025-09-06 13:08:00
国家级5G工厂,钟经开+1!
近日,工业和信息化部公示了《2025年5G工厂名录》钟楼经济开发区企业江苏电力装备有限公司成功入选成为继江苏精研科技股份有限公司后钟楼区第二家国家级5G工厂5G工厂是充分利用以5G为代表的新一代信息通信技术
2025-09-06 06:08:00
从玻璃到微纳新材料 从企业更名看龙口一家民企的转型跃迁
大众网记者 林晓冬 烟台报道说起玻璃大家都不陌生,餐桌玻璃、门窗玻璃都与我们的日常生活息息相关,但在烟台龙口有一家企业多年来持续在玻璃上“钻研”
2025-09-05 09:08:00
科创泉城 智启未来| “硬科创”需要“软传播”,网络达人共话“出圈”新思路
9月4日下午,在济南市委网信办联合山东省互联网传媒集团举办的“科创泉城 智启未来”知名网络达人济南采风活动的对话沙龙上
2025-09-05 09:51:00