• 我的订阅
  • 科技

首个AI高考全卷评测结果发布:最高分303,数学全不及格

类别:科技 发布时间:2024-06-24 09:22:00 来源:第一财经

高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。

在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。

语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

首个AI高考全卷评测结果发布:最高分303,数学全不及格

此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。

从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。

在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

首个AI高考全卷评测结果发布:最高分303,数学全不及格

上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。

“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示。

对于此次测试细节,上海人工智能实验室介绍,评测采用全国新课标I卷,“语数外”三科全卷测试,包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分,阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。

值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。实验室表示,每个题目都邀请了至少三位老师评阅取均分,团队对分差较大的题目还进行了再次审核,贴近高考真实阅卷标准。

实验室表示,在打分前,老师们并未被告知答案由大模型生成,但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况,团队会要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。

在完成所有大模型答卷的评卷工作后,阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。

语文方面,老师们认为,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

在数学试卷上,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

英语则整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

此外,一些老师提出,由于全部回答没有卷面,所以在作文的评判上会存在1-2分的误差。

(本文来自第一财经)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-24 12:45:20

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格
2024-06-26 07:26:00
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试
2024-06-20 10:19:00
...“一本”线。与文科相比,大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下,数学普遍不及格,相比河南理科511分的“一本”线,大模型还需努力。
2024-06-26 11:14:00
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分
2024-06-20 11:10:00
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...重的安全性评测上,国内模型文心一言4.0表现亮眼,拿下最高分(89.1分),Claude-3仅列第四。自去年3月16日文心一言首发至今,用户数已突破2亿,每天API调用量也突
2024-04-22 09:46:00
安兔兔评测pc版正式发布,欢迎大家下载体验
...会显示详细的信息,比如页面顶端显示的是所测项目中的最高分,这个分数反映了电脑在CPU和GPU中和测试中的最佳表现。10万分以下表示设备可能难以高效处理复杂AI任务,10万-5
2024-10-04 00:33:00
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...,另一方面能够直观体现国产大模型的最新发展进程。 评测结果显示,文心一言app在智能体能力方面表现突出。在用户创建智能体功能方面,文心一言app支持用户通过上传图片或拍照的
2024-03-14 17:06:00
华为pura70ultra霸榜dxomark评测结果公布
...影像评测机构DXOMARK公布了华为影像新旗舰Pura70Ultra的影像评测结果:以163分的总得分,位居全球榜首
2024-05-18 15:10:00
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
...,还真的有人试了。上海人工智能实验室近日公布了司南评测体系OpenCompass选取开源大模型测试今年高考的全国新课标I卷“语数外”的结果,为了确保“闭卷”考试,大模型的开源
2024-06-26 22:29:00
更多关于科技的资讯:
2025年,“商业航天”无疑是中国经济领域最热的关键词之一。这股热潮的兴起并非偶然,而是多重因素共同催化的结果——“商业航天”被写入国家“十五五”规划
2026-01-15 11:33:00
大河网讯(记者 赵檬 王怡潇 )蜜雪冰城开到美国好莱坞,锅圈食汇解决家庭聚餐新需求……河南食品企业越来越“潮”,频频打造全国爆款
2026-01-15 12:03:00
1月13日,“又一省份取消12345热线语音导航”的话题登上社交平台热搜。辽宁省营商环境建设领导小组办公室印发了《2026年优化政务环境行动方案》
2026-01-15 13:25:00
千问App全面接入支付宝,上线AI付款
1月15日,千问App宣布全面接入淘宝闪购和支付宝AI付,实现一句话点外卖。用户只需在千问的聊天框里自然说话,如“帮我点杯奶茶”或“帮我点两杯咖啡”
2026-01-15 13:33:00
千问App接入淘宝、闪购,测试AI购物功能
1月15日,千问App宣布全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,在全球首次实现点外卖、买东西、订机票等AI购物功能
2026-01-15 11:00:00
阿里千问领先谷歌推出AI购物功能
1月15日,千问App宣布全面接入淘宝、支付宝、闪购、飞猪、高德等阿里生态业务,率先实现点外卖、买东西、订机票等AI购物功能
2026-01-15 11:01:00
首批500辆助力版小红车已上线每日商报讯 “杭州小红车好像有助力版本了!”近日,一批助力版小红车悄然现身杭州街头,凭借酷炫外观和智能助力功能
2026-01-15 08:20:00
中国科大发明晶体“自刻蚀”新工艺 实现低维光伏材料精密制备
大皖新闻讯 1月15日凌晨,大皖新闻记者从中国科学技术大学获悉,该校张树辰特任教授团队联合中外学者,在新型半导体材料领域取得重要进展
2026-01-15 08:56:00
技术赋能场景 数据驱动创新 山东移动日照分公司亮相全国产业大会彰显数智硬实力
鲁网1月14日讯 (记者 王一凡)1月14日,2026高质量数据集与数据标注产业供需对接活动在日照市举办。中国移动作为数据要素领域领军企业
2026-01-15 09:06:00
厦门网讯(厦门日报记者 应洁)9大主题板块、30多个巨型灯组、5万多平方米沉浸式灯海——厦门文旅集团近日发布消息称,厦门园博苑灯会将扩容升级
2026-01-15 09:10:00
李英锋随着AI生成技术在电商领域的快速渗透,不少商家开始使用AI生成的图片、视频作为商品宣传素材,凭借精美视觉效果吸引消费者下单
2026-01-15 10:30:00
索乙1月14日发布的2025年进出口数据显示,我国专用装备、高端机床及工业机器人出口表现亮眼,同比分别增长20.6%、21
2026-01-15 10:30:00
杭州日报讯 一名眼科医生可以为行业带来多少改变?杭州明视康眼科医院院长张君告诉你,从打破技术垄断开始。多年来,从跨国企业屈光技术专家转型为国内顶尖的眼科临床医生
2026-01-15 06:48:00
王智超摘要:数字化转型已成为企业应对市场竞争、实现高质量发展的核心驱动力。在数字技术与实体经济深度融合的背景下,传统企业管理模式面临信息传递滞后
2026-01-15 07:02:00
全球前25位!来自浙江的他成为中国唯一登榜学者
近日,国际权威学术平台F1000旗下期刊《F1000Research》发布了一份重量级文献计量分析报告《Top Performers in a Decade of Otolary
2026-01-15 07:49:00