• 我的订阅
  • 科技

AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率

类别:科技 发布时间:2024-09-26 13:38:00 来源:新智元

【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%

大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。

不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的。

最近,普林斯顿大学的研究人员发布了一个新的基准测试CORE-Bench(Computational Reproducibility Agent Benchmark,计算可重复性智能体基准测试),主要关注模型在处理科研问题中的计算可重复/可复现(computational reproducibility)的问题。

对其他论文进行重复是科研活动的基础,研究人员需要使用提供的代码和数据来对论文中报告的结果进行复现。

CORE-Bench基于90篇科学论文,包含了270个任务,覆盖了三个学科(计算机科学、社会科学和医学),其任务被 划分为三个难度等级,覆盖纯文本和视觉-语言任务。

文中还提供了一个评估系统,可以快速、并行地测试智能体的准确性,与顺序实现相比,每次测试可以节省数天的评估时间。

在评估过程中,研究人员设计了两个基线智能体:通用的AutoGPT和基于该任务设计的CORE-Agent,其中底层语言模型用到了GPT-4o和GPT-4o-mini,结果显示,最佳智能体在最难级别的任务上达到了21%的准确率,即模型在常规科学任务自动化方面仍然有很大的改进空间。

CORE-Bench

AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率

基准构造

验证可重复性需要深度专业的领域知识,即使是对于经验丰富的研究人员来说,其过程可能也算是劳动密集型的任务,验证一篇论文最快也需要几个小时,就算只是给100篇不同领域的论文建立可重复性基准测试,也是不现实的。

简单来说,研究人员的目标是找到一些比较困难的基准任务,虽然这些任务在现实中很难验证其可重复性,但其基准测试的建立要相对简单一点。

为了解决这个问题,研究人员基于CodeOcean capsules构建了基准测试,可以轻松地进行复现。

AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率

研究人员从CodeOcean中选择了90篇可复现的论文,然后将数据集分为45篇用于训练和45篇用于测试。

在论文的选择标准上,由于CodeOcean包含来自不同学科和编程语言的论文,为了创建一个真实且健壮的基准测试,研究人员提出十个标准,可以确保CORE-Bench能够代表多样化但可行的计算可重复性任务子集。

1. 对应于可公开获取的研究论文;对于基准测试的范围是必要的

2. 来自计算机科学、医学或社会科学领域;测试由于分布变化导致的准确性变化

3. 用Python或R编写;测试由于分布变化导致的准确性变化

4. 包含一个README文件;提高构建有效性,虽然并非所有CodeOcean上的胶囊都有README文件,但现实世界中的大多数论文都有

5. 在CodeOcean的硬件上运行代码不超过45分钟;确保在给定的时间和硬件限制下胶囊(capsule)是可复现的

6. 需要一个相对简单的Bash命令来正确复现代码;允许轻松设计一个英文任务提示,指明在智能体无法访问运行文件的情况下应该如何运行代码

7. 结果在代码输出中有充分标记的图表、表格或文件名;消除了为无组织或未标记的数据设计任务问题的需求

8. 运行代码时结果的方差低;确保所有包含的胶囊都可以由人类验证和复现

9. 胶囊大小不超过10GB;确保在给定的资源限制下胶囊是可复现的

10. 胶囊的结果可以在本地运行代码时复现;确保胶囊是可复现的

虽然并非现实世界中的所有论文都符合这些标准,但这些标准可以提高任务的清晰度,确保了在当前智能体发展水平下,达到基准测试的高准确率是可行的,

对于每篇论文,手动创建了一组关于成功复现论文生成的输出的任务问题,可以评估智能体是否正确执行了代码并检索了结果。比如说,可以要求智能体报告模型的测试准确率、图表的轴标签或其他复现的结果,其中有些是单一任务问题,有些任务则包含多个问题。

数据集中可以确保每个任务至少有一个不能通过猜测来解决的问题(比如开放式的数值答案),并且只有当所有任务问题都正确回答时,任务才会被标记为正确,也能够保证任务无法通过随机猜测来完成。

研究人员从网站CodeOcean.com中获取的论文,CORE-Bench中的所有任务都来自于可复现的论文。

由于基准测试是衡量智能体复现与论文相关代码运行结果的能力,而不是为了确保论文中报告结果的正确性,所以研究人员认为没有必要在基准测试中包含不可复现的论文。

CORE-Bench的优势

能力要求高、多模态(Skills and modalities)

解决CORE-Bench中的任务需要多种能力,包括理解指令、调试代码、检索以及跨学科解释结果,模型只有具备这些技能才能在CORE-Bench上拿到更高分数,而这些技能对于复现新的研究成果来说也是必要的。

并且任务需要解释代码输出的文本和图像:基于视觉的问题需要从图形、图表、图或PDF表格的属性中提取结果;基于文本的问题包括从命令行文本、PDF文本、表格或HTML、Markdown或LaTeX中的文本提取结果。

例如,一个基于视觉的问题可能是「从室内空气质量 - 厨房 - 秋季图表中,报告湿度和气体之间的相关性」,而一个基于文本的问题可能是「报告第10个epochs后神经网络的测试准确率」。

现实世界中的计算可重复性任务

在构建基准测试时,研究人员主要关注其建构有效性(construct validity),即如何有效地衡量模型在现实世界中的表现,即CORE-Bench的任务与研究人员必须完成的任务密切相关,而其他编码基准测试中设计的玩具问题,并不能反映软件工程的复杂性。

在CORE-Bench上提高表现将直接转化为计算可重复性的改善,也是科学研究的基石。

迈向科研智能体的第一步

完成新科学研究的第一步是能够复制现有的科学工作,在实现能够进行新颖研究的智能体的过程中,这一步是非常有必要的。

实验结果

研究人员按照难度把CORE-Bench划分为CORE-Bench-Easy、CORE-Bench-Medium和CORE-Bench-Hard

CORE-Bench-Easy只包括最简单的任务,代码输出已经提供在环境中,智能体只需要导航环境以找到相关结果来回答任务问题。

在CORE-Bench-Medium上,智能体输入一个Docker命令来复制论文的代码,测试智能体与Bash终端交互的能力,如果智能体擅长与终端交互,这些任务应该也不算难。

CORE-Bench-Hard,智能体必须安装所有依赖项和库,并输出正确的命令以复现结果。

研究人员并选择了两个基线模型进行评估:

1. AutoGPT,研究人员基本没有修改原始模型,创建了query_vision_language_model工具,输入位一张图片和一个查询,并利用OpenAI API输出对该图片查询的回复,以分析图表和插图中的结果,该模型的查询视觉语言模型的能力并不特定于CORE-Bench。

2. CORE-Agent,研究人员在AutoGPT的基础上创建了CORE-Agent,为CORE-Bench的不同难度级别进行定制,主要修改了程序检查,以确保正确提交和报告复制结果的文件(即report.json)。

对于不同的难度级别,研究人员添加了特定的提示来引导智能体的行为,可以根据模型在训练集上的表现进行定性分析,并调整指令,其中最耗时的部分是分析失败日志以确定有效的提示策略。

评估指标

任务准确率,即所有任务问题都回答正确的任务比例;智能体的平均成本,即请求智能体的平均API成本。

评估结果

总体来说,使用GPT-4o的CORE-Agent在基准测试集的所有三个级别上都是表现最佳的智能体,其在CORE-Bench-Easy上解决了60.00%的任务,在CORE-Bench-Medium上解决了57.78%,但在CORE-Bench-Hard上仅解决了21.48%

实验结果表明,通用智能体可以通过简单地调整就能适应特定任务,从而获得显著的性能提升,作为对比,使用GPT-4o的AutoGPT在CORE-Bench-Hard上仅得分6.7%

文本问题比视觉问题简单

智能体在基于文本的问题上的表现始终优于基于视觉的问题。在测试集上,使用GPT-4o的CORE-Agent在CORE-Bench-Easy中正确回答了59.26%的视觉问题和87.88%的书面问题;使用GPT-4o-mini的CORE-Agent正确回答了37.78%的视觉问题和81.81%的书面问题。

视觉问题之所以更难,主要因为模型需要分析图表中的结果,而书面答案通常可以直接在终端输出中找到。

如果生成了多个输出文件,智能体有时无法找到相关的图表;即使找到了,分析输出也可能很困难。

Python比R更简单

智能体在Python任务上的表现远胜于R任务,可能的原因是R的输出通常更难解析,因为许多R任务生成了完整的PDF手稿,智能体需要阅读;另一个可能原因是安装R包的依赖项可能比Python花费的时间要长得多。

计算机科学任务在Python中的比例过高,也可能解释了为什么与其他两个学科相比,往往更容易被复现。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-26 14:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

杨振宁与电影《奥本海默》中的科学家们
...哥伦比亚大学寻费米无果后,转而决定到位于新泽西州的普林斯顿大学,寻找研究对称问题、提出同位旋守恒定律的尤金·维格纳。不凑巧的是,维格纳因即将开始的学术休假,无法在学年内开课、
2023-09-15 02:55:00
​杰出教授Bernard Chazelle加入欧洲经济研究院
...士、世界创新基金会(WIF)会士、美国古根海姆学者、美国普林斯顿大学计算机科学杰出教授BernardChazelle院士加入欧洲经济研究院
2025-01-29 22:55:00
2023年狄拉克奖揭晓:美国四位物理学家获奖,对弦理论作出贡献
...物理学杰出服务教授杰弗里·哈维(Jeffrey Harvey)、美国普林斯顿大学尤金·希金斯物理学教授和普林斯顿理论科学中心主任伊戈尔·克莱巴诺夫(Igor Klebanov)
2023-08-09 14:13:00
预测准确率78% 人工智能竟能预判你何时死
...生活数据来预测人们的健康状况、收入和死亡情况,并且准确率相当高。普林斯顿大学社会学家马修·萨尔加尼克(MatthewSalganik)指出,如果这种技术适用于不同的社会阶层,
2023-12-26 19:11:00
科学家在拓扑绝缘体器件中发现奇异的量子干涉效应
...拓扑运动的量子干涉示意图。图片来源:Shafayat Hossain,普林斯顿大学扎希德·哈桑(Zahid Hasan)小组的博士后研究员在一项新颖的实验中
2024-03-01 09:38:00
科学家提出创新3D磁场优化方法,既能保障离子体稳定性又可实现高聚变性能
...市场中的经济竞争力。为攻克这一局限,近期,来自美国普林斯顿大学和普林斯顿等离子体物理实验室的研究人员,提出了一种创新的 3D 磁场优化方法。利用机器学习、自适应技术以及跨设备
2024-05-27 10:42:00
颜宁发文谈父母感染新冠时再透露回国原因:家人是最大的牵绊
...出生,1996至2000年在清华大学生物系攻读本科,后赴美国普林斯顿大学分子生物学系攻读博士学位,师从施一公教授,从事细胞凋亡研究,2004年12月通过博士论文答辩。2005
2022-12-19 15:00:00
...总会有一些可供参考的方法。世界图书出版公司推出的《普林斯顿经济学研究指南:课题选择、论文发表到学术生涯管理》(以下简称《普林斯顿经济学研究指南》)一书,正是对做学问的共同之点
2024-04-13 03:22:00
Claude团队喜提清华物理学霸姚顺宇!两个Yao Shunyu都投身大模型
...了具有“诺奖风向标”之称的斯隆奖。马腾宇博士就读于普林斯顿大学,导师是理论计算机科学家、两届哥德尔奖得主Sanjeev Arora教授
2024-10-29 09:54:00
更多关于科技的资讯:
最近有件事儿越来越常见:外国人不光来中国旅游,还专门“打飞的”来看病。不是出于好奇体验,而是真心觉得值!值在哪儿?三个字
2026-01-21 21:52:00
中新经纬1月21日电 广东省政府网站21日公布《广东省人工智能赋能交通运输高质量发展若干政策措施》(下称《政策措施》)
2026-01-21 20:20:00
织金平远公司完成 500kVⅡ 组母线母差保护装置校验及传动
多彩贵州网讯(通讯员 史凡莉)近日,织金平远公司厂区内,500kVⅡ组母线设备区域一派忙碌景象。电热检修部与发电运行部工作人员有条不紊地开展母差保护A屏
2026-01-21 17:15:00
九阳太空厨房已安全稳定运行超1500天
中国消费者报报道(记者桑雪骐)航天员们如何健康、舒适地展开太空生活和吃好一日三餐,是大家都很关心的话题。据了解,这背后其实有一个我国自主研制的太空厨房
2026-01-21 18:05:00
秦皇岛经开区第一小学开展人工智能科技实践活动
河北新闻网讯(李佳新)日前,秦皇岛经开区第一小学开展以“AI探索,智创未来”为主题的人工智能科技实践,通过沉浸式实训活动激发学生的科技探索热情
2026-01-21 18:11:00
马年将至(农历),在广州大夫山森林公园,一些徒步爱好者分享了一种创意玩法——“画马”,相关穿越路线攻略一时引发追捧。所谓“画马”
2026-01-21 18:36:00
三重蝶变,中天钢铁解锁“企业主理”新范式
大寒虽寒,热潮涌动。原点空间路演大厅内,由中天钢铁主理的第37场沙龙——“AI智能体创新大赛总结沙龙”以三重蝶变,为常州“智能体+场景应用”示范城市建设吹响了热力全开的奋进号角
2026-01-21 18:28:00
苏州市女企协秘书长、国浩律师(苏州)事务所合伙人葛霞青律师荣登《钱伯斯大中华区指南2026》推荐榜单
江南时报讯 1月15日,全球领先的法律研究和分析机构钱伯斯(Chambers & Partners)发布《钱伯斯大中华区指南2026》(Chambers Greater China Region Guide 2026)
2026-01-21 15:23:00
盐城盐都:“翼”技傍身 照亮前程
江南时报讯 启动无人机,校准飞行参数,规划测绘航线,精准捕捉地面数据……日前,2026年盐城市盐都区首期无人机测绘操控员技能培训在都U+乐业空间正式开班
2026-01-21 15:24:00
全国首款!仙库3D智能足脊扫描仪正式发布!
近日,深圳仙库智能有限公司(以下简称“仙库”)正式发布仙库3D智能足脊扫描仪XK-CH005,这是全国首款实现“足脊一体”同步评估的硬核科技产品
2026-01-21 16:24:00
国家级备案落地!疯狂体育Foretell革命性AI平台,开启体育智能决策新阶段
2026年1月20日,疯狂体育正式官宣推出旗下AI赛事预测工具Foretell。凭借已经完成的国家互联网信息办公室深度合成服务算法备案资质
2026-01-21 16:47:00
当我们在思考“哪些中国企业创新做得不错”时,CES 2026舞台上的联想集团给出了一个全面而深刻的答案。这不仅仅是一次产品发布会
2026-01-21 16:49:00
近日,剑桥大学教育学院院长Hilary正式受聘为中国素质教育品牌欣乾程的学术顾问。此次合作不仅是国际顶尖学术力量与中国创新型教育机构的一次重要握手
2026-01-21 14:24:00
跨越顶奢与潮饮的“美酒+美食”表达 五粮液全力构建中国白酒全球新叙事
鲁网1月21日讯当一位新加坡米其林星厨在构思新菜单时,正在将中国白酒作为风味拼图中一块充满惊喜的“香料”。在他手中,一杯五粮液可能被用来平衡炙烤龙虾的鲜甜
2026-01-21 12:03:00
农行肥城桃都支行:以政策优势精准破解粮企贷款难题
鲁网1月21日讯2026年伊始,桃都支行延续2025年末服务“黄羽鸡”产业的奋进势头,步履不停,持续扎根三农,精准运用粮食购销领域的专项贷款方案
2026-01-21 12:05:00