• 我的订阅
  • 科技

首个AI高考全卷评测结果发布:数学全都不及格

类别:科技 发布时间:2024-06-20 11:10:00 来源:大众报业·齐鲁壹点

6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排名二三位。

首个AI高考全卷评测结果发布:数学全都不及格

本次评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。全卷试题既包含选择、填空等“答案唯一性”题目,也包括简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

大模型数学成绩都不及格

因为受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含2道带图试题),英语听力部分(分值30分)不纳入此次评测。

结果,阿里Qwen2-72B以总分303分排名第一,其中语文124分(满分150分),数学70分(满分150分),英语109分(满分120分);GPT-4o以总分296分位居第二,其中语文111.5分,数学73分,英语111.5分;“书生·浦语”2.0文曲星以0.5分之差排名第三,其中语文112分,数学75分,英语108.5分。

首个AI高考全卷评测结果发布:数学全都不及格

7个大模型的语数外得分情况

可以看到,“AI考生”三甲都擅长文科,语文和英语成绩优良,然而它们的数学推理能力有待提升,高考数学成绩都不及格。目前,数学是所有大模型的短板,得益于上海人工智能实验室在数学推理上的投入,“书生·浦语”2.0文曲星在高考中得到75分,在所有受测模型中位居榜首,但仍存在较大的提升空间。

阅卷老师点评“考生”表现

对于这些“AI考生”的语数外水平,老师们给出了中肯的评价——

语文评卷显示,大模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题,虽然有针对性,但缺乏修饰,几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”,大模型还无法完全理解。

首个AI高考全卷评测结果发布:数学全都不及格

7个大模型的语文各题型得分情况

数学评卷显示,大模型的主观题回答相对凌乱,而且解题过程有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强,但无法在解题过程中灵活运用。

首个AI高考全卷评测结果发布:数学全都不及格

7个大模型的数学各题型得分情况

大模型的英语整体表现良好,然而部分模型由于不适应一些题型,在七选五、完形填空等题型上得分较低。大模型写的英语作文普遍存在因超出字数限制被扣分的情况,而人类考生大多因为字数不够被扣分。

首个AI高考全卷评测结果发布:数学全都不及格

7个大模型的英语各题型得分情况

(综合自上观新闻、新民晚报)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-20 15:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格
2024-06-26 07:26:00
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示
2024-06-24 09:22:00
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试
2024-06-20 10:19:00
...获国内头筹在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分。据介绍,本次
2024-06-26 11:14:00
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
...,还真的有人试了。上海人工智能实验室近日公布了司南评测体系OpenCompass选取开源大模型测试今年高考的全国新课标I卷“语数外”的结果,为了确保“闭卷”考试,大模型的开源
2024-06-26 22:29:00
大模型权威报告:讯飞星火得分第一
...、物理、医学5个二级分类,题型上以单选和简答为主。评测结果中,讯飞星火78.50%的得分率排名第一。另外,讯飞星火在理科综合大类下80%的二级分类评测中得分率为第一,化学与生
2023-08-18 09:35:00
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的
2024-03-04 10:23:00
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...其测试结果位于国内中文大模型的前列。在MMLU英文权威评测榜单上,baichuan-7B也超过了Meta旗下的LLaMA-7B
2023-06-15 16:53:00
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解
2024-05-17 17:26:00
更多关于科技的资讯:
2月27日,山西转型综改示范区入区企业山西迈杰模具制造有限公司机械加工车间、冲压调试及焊装车间一片热火朝天的生产场景——机器的轰鸣声与员工们的专注身影
2026-03-01 20:19:00
小发票、大活力。市民参与“有奖发票”热情如潮水般奔涌攀升,消费市场焕发出勃勃生机。数据显示,活动启动半个月,已累计有303424张发票中奖
2026-03-01 20:20:00
鲁网3月1日讯日前,兴业银行联合中国电信成功开通全国金融行业首条跨省量子OTN(Optical Transport Network
2026-03-01 17:33:00
养老康复师、整理收纳师持续走热 58到家启动“50万阿姨招募计划”
春节过后,家庭服务消费迅速升温。58到家数据显示,节后找保姆需求订单量超过1月同期2倍以上,同比增长36%;北上广深等一线城市需求月环比增长超87%
2026-03-01 15:07:00
万联易达集团推出新型物流撮合交易平台“易达宝”
在全产业链供应链中,物流成本正在从“可优化项”蜕变为利润的隐形绞索,信息不对称与交易机制失衡导致物流成本层层加码。货主企业为找车需耗费大量时间成本和会员费等隐性支出
2026-03-01 15:09:00
奥托博克唯一线上官方旗舰授权落地京东健康 共助罕见病患者“步履不停”
在2月28日国际罕见病日到来之际,京东健康与全球知名康复品牌奥托博克(Ottobock)的合作迈出坚实一步。针对腓骨肌萎缩症(Charcot-Marie-Tooth disease
2026-03-01 15:11:00
今年5月 全球机器人将在杭州“同台竞技”
人形机器人在生产线上搬运物料 国家机器人检测与评定中心供图都市快报讯 昨天,2026杭州国际具身机器人场景应用大赛宣布
2026-03-01 08:35:00
30天连融三轮,5亿订单在手节后第一周,杭州四足机器人赛道就传来一阵密集的“脚步声”。2月26日,具微科技宣布完成超亿美元A++轮融资
2026-03-01 08:35:00
商报讯 近日,西湖区召开“新春第一会”,探索“顾问式”服务,为建设一流创新生态再出新招。据介绍,2026年,西湖区锚定科创
2026-03-01 08:35:00
昨天,百度智能云项目签约落地上城区。北京百度网讯科技有限公司将与上城区携手共建百度智能云千帆大模型(杭州)产业创新中心
2026-03-01 08:35:00
今年春节,秦皇岛市海港区一旅游景点“上新”智能机器人,该款机器人通过特色舞蹈表演、人机互动等形式,为游客提供表演、人机互动、海洋向导、天气预报等服务,让游客在欢声笑语中感受科技的
2026-03-01 10:32:00
杭州又一机器人大赛 定档5月
商报讯 又一机器人赛事即将开赛——5月15日至16日,2026杭州国际具身机器人场景应用大赛将在杭州云栖小镇会展中心和双浦机器人测试训练场举行
2026-03-01 08:35:00
鲁网2月28日讯冬尽春归,马蹄报喜。2026年迎来史上最长9天春节假期。从装点门庭的年俗好物,到象征团圆的珍馐美馔,涌动着万象更新的消费活力
2026-02-28 22:40:00
在全球经济充满不确定性的时代背景下,企业如何在危机中把握机遇、在变局中实现稳健增长,成为衡量领导者战略能力的重要标尺。作为荷美尔亚太区总裁
2026-02-28 17:17:00
电与未来同行:松下中国在海南开展电能知识可持续科普活动
2026年1月,松下中国来到海南乡村学生身边,在万宁市和乐、莲花、礼纪等地开展可持续教育科普活动。课程活动以“电能”为核心线索
2026-02-28 17:19:00