我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

科研也完了，AI暴虐170位人类专家！Nature子刊：大模型精准预测研究结果，准确率高达81%

类别：科技发布时间：2024-12-09 09:50:00 来源：新智元

【新智元导读】知识密集型工作也败了！大型语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中人机协作的巨大潜力。

在现代化工具的帮助下，科研人员的群体规模、效率都有显著提升，发表科学文献的数量几乎是呈指数级增长，而人类的阅读效率却几乎没有提升，新入行的研究人员一下子就要面对过去数十年的研究成果。

为了更快地掌握行业动态，研究者往往会考虑优先阅读那些更知名的、影响力更大的论文，从而会忽视掉很多潜在的、具有颠覆性的发现。

以ChatGPT为首的大模型算是一个很有潜力的辅助阅读、科研的解决方案，其通用能力覆盖了专业考试、有限推理、翻译、解决数学问题，甚至还能写代码。

已有的研究考察了大模型在科研领域的表现，但基准数据集大多属于「回顾性质」的，比如MMLU、PubMedQA和MedMCQA，主要以问答的形式来评估模型的核心知识检索和推理能力，

科研也完了，AI暴虐170位人类专家！Nature子刊：大模型精准预测研究结果，准确率高达81%

然而，这些基准都不适合评估模型前瞻的能力，辅助科研需要整合嘈杂但相互关联的发现，比人类专家更擅长预测新结果。

最近，伦敦大学学院（UCL）的研究人员在Nature Human Behaviour期刊上发布了一个前瞻性基准BrainBench，在神经科学领域考察模型的预测能力。

论文链接：https://www.nature.com/articles/s41562-024-02046-9

结果发现，大模型的表现远远超越了人类专家水平，平均准确率达到了81%，而人类的平均准确率只有63%

即使研究团队将人类的反馈限制为仅对特定神经科学领域、具有最高专业知识的人，神经科学家的准确率仍然低于大模型，为 66%

和人类专家类似的是，如果大模型对预测结果表示具有高度自信时，回答结果的正确率也更高，也就是说，大模型完全可以辅助人类做科研新发现。

最重要的是，这种方法并不特定于某一个学科，其他知识密集型任务上也可以使用。

科研结果预测

即使是人类专家，在神经科学领域进行预测时，仍然是非常有挑战性的，主要有五个难题：

1. 领域内通常有成千上万篇的相关科学论文；

2. 存在个别不可靠的研究结果，可能无法复制；

3. 神经科学是跨领域学科（multi-level endeavour），涵盖行为（behaviour）和分子机制（molecular mechanisms）；

4. 分析方法多样且可能非常复杂；

5. 可用的实验方法很多，包括不同的脑成像技术、损伤研究、基因修改、药理干预等。

为了满足对大模型的测试需要，针对上述难题，研究人员开发的BrainBench基准总共纳入了200个由人类专家精心设计的、2023年发表在《神经科学杂志》上的测试案例，以及额外100个由GPT-4生成的测试案例，涵盖了五个神经科学领域：行为/认知、系统/回路、疾病神经生物学、细胞/分子以及发展/可塑性/修复。

对于每个测试案例，研究人员会修改已发表的摘要，创建一个变更后的版本，在不改变方法和背景的情况下，大幅改变研究结论。

比如说，与原始摘要相比，变更后的摘要可能会交换两个大脑区域在结果中的作用，反转结果的方向（将「减少」替换为「增加」）等。任何改动都需要保持摘要的连贯性，有时还需要进行多次改动（比如将多个减少替换为增加）。

也就是说，变更后的摘要需要在实证上有所不同，但逻辑上并不矛盾。

测试者需要在原始摘要和修改版本之间做出选择，人类专家和大型语言模型的任务是从两个选项中选择正确的，即原始版本；人类专家需要做出选择，并提供信心和专业水平的评分；大型语言模型则根据选择的摘要的困惑度（即模型认为文本段落的惊讶程度较低）来评分，自信程度与两个选项之间困惑度差异成正比。

部分GPT-4提示如下：

你的任务是修改一篇神经科学研究论文的摘要，使得修改后的内容显著改变研究结果，但不改变方法和背景。这样我们可以测试人工智能对摘要主题领域的理解能力。 ... ... 摘要的开头是背景和方法，所以这部分摘要不应被修改。不要改变前几句话。我们希望摘要在实证上是错误的，但逻辑上并不矛盾。要找到论文的原始结果，需要一些神经科学的洞察力，而不仅仅是一般的推理能力。因此，你所做的修改不应该评估人工智能的推理能力，而是它对神经科学和大脑工作原理的知识。注意不要做出改变结果但可能在作者的研究中仍然发生的修改。例如，关于学习的fMRI摘要可能提到海马体而不是纹状体。然而，纹状体可能也是活跃的，但没有在摘要中报告，因为它不是研究的重点。你所做的修改不应该从摘要的其余部分被识别或解码出来。因此，如果你做了修改，确保你改变了所有可以揭示原始摘要的内容。在你改变单词时注意冠词的使用(a/an)。确保你的修改保持句子间的一致性和正确的语法，修改不应该与摘要的整体意义相矛盾或混淆。避免进行不需要理解科学概念的琐碎修改，修改应该反映出对主题的深刻理解。在进行修改时，不要错过摘要中的任何重要结果或发现。每一个重要点都应该在你的修改中得到体现。

实验结果

人类神经科学专家经过专业能力和参与度的筛选，共有171名参与者通过了所有检查并被纳入分析结果，大多数人类专家是博士生、博士后研究员或教职/学术人员。

在BrainBench上，大型语言模型的性能表现都超过了人类专家，平均准确率为81.4%，而人类专家的平均准确率为63.4%；当把人类回答限制在那些自报专业水平在前20%的测试项时，准确率上升到了66.2%，但仍然低于大型语言模型的水平。

参数较小的模型，比如70亿参数的Llama2-7B和Mistral-7B，表现得与更大的模型相当，其性能也比尺寸更小的模型要好，小模型可能缺乏捕捉关键数据模式的能力；而为聊天或指令优化的模型表现得比基准模型要差。

研究人员推测，让大型语言模型适应自然语言对话可能会阻碍其科学推理能力。

按子领域和参与者类型划分时，大型语言模型在每个子领域中的表现也都优于人类专家。

在测试时，为了防止基准测试本身可能是训练集的一部分，研究人员采用zlib-perplexity ratio（困惑度比率）来评估大型语言模型是否记住了某些段落。

该值可以衡量文本数据不可知压缩率与大型语言模型计算的特定数据困惑度之间的差异，如果某个段落难以压缩，但模型给出的困惑度教低，就代表模型是通过记忆来回答问题。

从结果来看，没有迹象表明大型语言模型见过并记住了BrainBench

研究人员还进一步确认了大语言模型在2023年早些时候发表的项目上并没有表现得更好（2023年1月与10月相比）

总之，检查结果表明，对于大型语言模型来说，BrainBench的数据是新的，没见过的。

为了评估大型语言模型的预测是否经过校准，研究人员检查了置信度与准确性之间的关联性，结果发现与人类专家一样，所有大型语言模型都展现出准确性和置信度之间的正相关性。

当大型语言模型对自己的决策有信心时，更有可能做出正确的选择。

此外，研究人员还在个体层面上拟合了模型困惑度差异与正确性之间的逻辑回归，以及人类置信度与正确性之间的逻辑回归，能够观察到显著的正相关性，证实了模型和人类都是经过校准的。

参考资料：

https://www.nature.com/articles/s41562-024-02046-9

https://x.com/kimmonismus/status/1861791352142348563

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-09 12:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于暴虐,准确率,模型,高达,完了,科研的资讯：

“上天”“入地”“下海” AI驱动中国科学创新加速前行

...了卓越的性能，尤其是在X级耀斑的预测上，达到了95%的准确率和100%的真实阳性率。“入地”对中国科学院的科研人员来说，做学问、做研究是他们的本分，分担国家重大任务是责任，为

2025-03-21 16:54:00

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nat

...论文的几个重要结论：总体结果：LLMs在BrainBench上的平均准确率为81.4%，而人类专家的平均准确率63

2024-12-02 09:51:00

科学家证实大模型能像人类一样“理解”事物

...类一样“理解”事物？传统人工智能研究聚焦于物体识别准确率，却鲜少探讨模型是否真正“理解”物体含义。“当前人工智能可以区分猫狗图片，但这种‘识别’与人类‘理解’猫狗有什么本质区

2025-06-11 08:47:00

讯飞星火首发智能体平台，敏捷触达大模型应用企业落地最后一公里

...模型消耗的运算资源非常大。为了解决大模型应用效率和准确率问题，刘庆峰谈道，基于讯飞星火V3.5对长文本的理解、学习、回答能力，科大讯飞进行了重要的模型剪枝和蒸馏，从而推出业界

2024-04-26 11:44:00

突破复杂版面及图表解析难题，合合信息“大模型加速器”再升级

...库的构建基于大量文档的文本信息提取，需要高效率、高准确率的工具。合合信息文档解析技术提供了专业的技术支持和服务，有效解决了文档处理过程中的问题。在“大模型加速器”的支持下

2025-03-24 15:46:00

全球首个百亿级人类基因组基础模型Genos发布！

...任务中，实现了92%的准确性，当结合021科学基础模型后，准确率更是高达98.3%，为临床诊断提供了全新的高效工具。综合多项评测结果，Genos在各项核心任务中的表现均全面超

2025-10-24 13:21:00

chatgpt教你写ai包教包会，准确度最高达99.7%

...25岁小哥，让ChatGPT帮他创建了个地理位置识别程序，最终准确率最高达99.7%。而且各种细节步骤全在，一边干活还一边教你学习

2023-02-08 23:47:00

业内首个！京东发布“AI京医”大模型：准确率达99.5%

...和误诊率。官方介绍称，目前，“AI诊疗助手2.0”的分诊准确率达到99.5%，电子病历书写效率提升120%，AI一次问题解决率超90%

2025-01-11 21:21:00

AI诊断抑郁症，准确率高达97.53%的秘诀何在？

...结合语音和大脑活动数据后，这个模型在诊断抑郁症时的准确率高达97.53%，比其他方法都要好得多。“这是因为语音里有很多我们现在还无法从大脑里直接得到的信息

2024-11-23 14:12:00

更多关于科技的资讯：

千问APP免费开放AI PPT等四项新功能

12月10日，公测仅23天月活突破3000万后，千问APP正以周为单位快速迭代，意在打造全能“办事”助手，即日起向所有用户首批开放AI PPT

2025-12-10 15:04:00

存量博弈下，潍柴如何用服务增值让客户体验与企业增长双向奔赴？

鲁网12月10日讯当发动机及装备制造业迈入存量竞争深水区，新能源与智能化技术加速迭代，客户需求越来越高，后市场服务早已超越了简单“售后服务”的范畴

2025-12-10 11:25:00

杭州造火箭了！最快明年首飞，“半小时全球直达”

火箭不仅可以向太空发射卫星，还可以送洲际快递，甚至可以建造太空城实现“太空旅居”？这个听起来充满未来感的愿景，正在杭州迈出第一步

2025-12-10 12:19:00

望海康信荣膺国家级专精特新“小巨人”企业称号

近日，望海康信（北京）科技股份公司成功入选北京市第七批专精特新“小巨人”企业名单，荣获由工业和信息化部认定的国家级专精特新“小巨人”企业称号

2025-12-10 12:05:00

图达通港股上市，黄山市深度投资，助力汽车产业升级发展

大皖新闻讯 2025年12月10日，全球顶尖激光雷达制造商图达通正式在香港联合交易所挂牌上市，截至上午10点30分，涨幅50%

2025-12-10 11:32:00

维信诺第四代pTSF技术量产商用

大皖新闻讯屏幕，作为用户感知数字世界的核心窗口，其进化正迈向关键阶段。随着AMOLED技术加速向笔记本电脑、车载等中大尺寸应用渗透

2025-12-10 10:20:00

100天倒计时｜于变化中锚定成长，来京宠展驭见2026

十二年为一纪，自2014年破土而生，北京万耀雄鹰国际展览有限公司举办的京宠展已悄然走过它的第一轮春秋，我们看着行业从青涩走向成熟

2025-12-10 10:43:00

密码学知识做成科普游戏反诈中心现场签约

杭州日报讯还没毕业就带队创业，把密码学原理变成孩子爱玩的闯关游戏。日前，在第十一届杭州市大学生科技创新大赛决赛现场，杭州电子科技大学在校生唐萌团队带来的“秘密传递小特工”项目

2025-12-10 06:43:00

智能穿戴产品打开千亿市场空间

从运动健康到生活全场景︐智能穿戴设备以技术融合重塑消费生态︐开启市场新增长极腕间智能手表实时监测心率，耳畔智能耳机同步语音控制

2025-12-10 07:13:00

浙大邵逸夫医院发布肺癌全景病理大模型应用

病理诊断准确率可达到90%以上，AI破局病理诊断痛点每日商报讯 12月4日-6日，第四届中国智能肿瘤学大会在杭州举行。作为大会核心专题板块之一

2025-12-10 07:44:00

绍兴柯桥：与年轻人共“织”新时尚

从“卖布料”到“卖创意”杭州日报讯眼下，绍兴未远品牌管理有限公司负责人周凯正为其一手打造的品牌“GUYUANDAI”筹备新系列的作品

2025-12-10 06:44:00

互联网行业对统计学专业技能的需求及其薪资反馈

原佳星摘要：互联网行业的迅速发展使数据成为企业核心资源，统计学专业的重要性随之提升。企业在产品运营、用户分析和商业预测中高度依赖统计能力

2025-12-09 05:45:00

避开“包装溢价”陷阱杭州市消保委教您四步甄别过度包装商品

近年来，商品过度包装问题引发社会广泛关注。部分商家为提升商品附加值，通过增加包装层数、扩大空隙率、使用高成本材料等方式制造“包装溢价”

2025-12-09 07:18:00

让太空数据服务于更多领域杭州博士后打起了卫星的主意

在杭州，两位潜心科研的博士后，不约而同地将目光投向了地球上空数百公里处的低轨卫星。来自西安电子科技大学杭州研究院的孙冉冉博士

2025-12-09 07:49:00

太行交通数智大模型发布

我省交通行业首个自主创新研发的交通数智大模型太行交通数智大模型发布河北日报讯（曹智、谭磊）12月6日，河北交投集团发布太行交通数智大模型

2025-12-09 08:00:00

头条订阅服务

科研也完了，AI暴虐170位人类专家！Nature子刊：大模型精准预测研究结果，准确率高达81%