• 我的订阅
  • 科技

首个AI高考全卷评测结果发布:最高分303,数学全不及格

类别:科技 发布时间:2024-06-24 09:22:00 来源:第一财经

高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。

在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。

语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

首个AI高考全卷评测结果发布:最高分303,数学全不及格

此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。

从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。

在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

首个AI高考全卷评测结果发布:最高分303,数学全不及格

上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。

“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示。

对于此次测试细节,上海人工智能实验室介绍,评测采用全国新课标I卷,“语数外”三科全卷测试,包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分,阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。

值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。实验室表示,每个题目都邀请了至少三位老师评阅取均分,团队对分差较大的题目还进行了再次审核,贴近高考真实阅卷标准。

实验室表示,在打分前,老师们并未被告知答案由大模型生成,但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况,团队会要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。

在完成所有大模型答卷的评卷工作后,阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。

语文方面,老师们认为,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

在数学试卷上,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

英语则整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

此外,一些老师提出,由于全部回答没有卷面,所以在作文的评判上会存在1-2分的误差。

(本文来自第一财经)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-24 12:45:20

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格
2024-06-26 07:26:00
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试
2024-06-20 10:19:00
...“一本”线。与文科相比,大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下,数学普遍不及格,相比河南理科511分的“一本”线,大模型还需努力。
2024-06-26 11:14:00
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分
2024-06-20 11:10:00
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...重的安全性评测上,国内模型文心一言4.0表现亮眼,拿下最高分(89.1分),Claude-3仅列第四。自去年3月16日文心一言首发至今,用户数已突破2亿,每天API调用量也突
2024-04-22 09:46:00
安兔兔评测pc版正式发布,欢迎大家下载体验
...会显示详细的信息,比如页面顶端显示的是所测项目中的最高分,这个分数反映了电脑在CPU和GPU中和测试中的最佳表现。10万分以下表示设备可能难以高效处理复杂AI任务,10万-5
2024-10-04 00:33:00
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...,另一方面能够直观体现国产大模型的最新发展进程。 评测结果显示,文心一言app在智能体能力方面表现突出。在用户创建智能体功能方面,文心一言app支持用户通过上传图片或拍照的
2024-03-14 17:06:00
华为pura70ultra霸榜dxomark评测结果公布
...影像评测机构DXOMARK公布了华为影像新旗舰Pura70Ultra的影像评测结果:以163分的总得分,位居全球榜首
2024-05-18 15:10:00
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
...,还真的有人试了。上海人工智能实验室近日公布了司南评测体系OpenCompass选取开源大模型测试今年高考的全国新课标I卷“语数外”的结果,为了确保“闭卷”考试,大模型的开源
2024-06-26 22:29:00
更多关于科技的资讯:
成安“一品一播”赋能工业企业发展主播带货推动工业品线上热销河北新闻网讯(记者刘剑英)因一场直播,前不久,一名新疆卡车司机跨越3000多公里
2025-12-25 11:29:00
海尔×牛客AI面试:用技术重塑候选人体验,让招聘更有温度
效率与品质并行的时代,AI正在改写招聘的底层逻辑。从校招高峰到全球人才争夺战,越来越多企业正让AI深度介入招聘流程,让人才筛选像生产一样精准
2025-12-25 12:27:00
百度AI营销 × 茅台酱香:以岁月记忆沉淀品牌温度,打造全链路沟通范式
那些关于奔赴与抵达的足迹,那些串联起奋斗与团圆的旅程,不仅是时光的印记,更藏着一整年的热爱与坚守。当这些珍贵的生活轨迹被温柔唤醒
2025-12-25 12:29:00
不只是杯壶!新华社文创·哈尔斯“必胜”系列正式上线
近日,新华社文创与头部杯壶品牌哈尔斯携手推出“必胜”系列杯壶产品,该系列产品的策划灵感,源自纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会受阅现场划破长空的铿锵口号
2025-12-25 12:29:00
鸿蒙星火,桃李芳华:2025 HarmonyOS人才布道师年度论坛凝聚生态向心力
12月20日,“2025 HarmonyOS人才布道师年度论坛”于重庆举行。本次论坛不仅是一场对2025年度HarmonyOS人才发展的最新进展与成果的集中展示
2025-12-25 12:31:00
TPACK框架赋能高中英语教师信息化教学设计:现状、挑战与路径
摘要: 本研究基于TPACK框架,采用混合方法调查河南省高中英语教师信息化教学现状。结果显示:教师总体能力尚可(3.85)
2025-12-25 13:19:00
中新经纬12月25日电 “携程黑板报”公众号25日发布关于用户关切问题的郑重声明。针对近日大家高度关注的用户数据安全等问题
2025-12-25 14:01:00
长白时评评论员 久泰平近日,中国人民大学“书记严选”文创羽绒服热销火爆全网,源自中国人民大学党委书记张东刚在小红书社交平台上发帖推荐该校近期上新的人大超绒羽绒服
2025-12-25 14:06:00
Soul App联合复旦发布2026社交趋势十大关键词
近日,社交平台Soul App旗下Just So Soul研究院联合复旦大学传播与国家治理研究中心、复旦大学价值认知传播与人智协同治理交叉创新团队
2025-12-25 14:13:00
腾讯扣叮发布2026新品,助力人工智能教育普及
12月22日,2025腾讯扣叮渠道生态大会暨2026年新产品推介会在深圳举行。会上,腾讯扣叮宣布“快叮岛”迎来全新升级版本
2025-12-25 14:13:00
北京惠诚律师事务所举办律师品牌建设主题沙龙
12月5日下午,由北京市惠诚律师事务所与北京律页网络科技有限公司联合主办,百度百科、百度智能体、律视微言共同支持的“律业IP·惠诚赋能——律师品牌建设的创新路径”主题沙龙在惠诚律师事务所成功举办
2025-12-25 14:13:00
卡游:架设国潮文化和青少年之间的桥梁 ——“文化赋能,育心育人” 学术研讨会在京举办
12月20日,由央广传媒集团主办、浙江卡游动漫有限公司公益支持的“文化赋能,育心育人——中华优秀传统文化促进青少年心理健康学术交流活动”在北京举行
2025-12-25 14:43:00
中新经纬12月25日电 25日,公安部举行新闻发布会。会上,公安部经济犯罪侦查局局长华列兵表示,金融领域“黑灰产”已形成一套完整的产业链条
2025-12-25 14:48:00
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)“未来音乐研讨会暨国家社科基金艺术学重大项目《音乐与人工智能协同创新发展理论研究》学术研讨会”
2025-12-25 15:49:00
在唐山,金融服务正跳出传统柜台,上演着一场场生动的“现场作业”。曹妃甸经开区一家手握多项专利的科技企业,一周内获得了急需的发展资金
2025-12-25 15:56:00