• 我的订阅
  • 科技

首个AI高考全卷评测结果发布:数学全都不及格

类别:科技 发布时间:2024-06-20 11:10:00 来源:大众报业·齐鲁壹点

6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排名二三位。

首个AI高考全卷评测结果发布:数学全都不及格

本次评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。全卷试题既包含选择、填空等“答案唯一性”题目,也包括简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

大模型数学成绩都不及格

因为受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含2道带图试题),英语听力部分(分值30分)不纳入此次评测。

结果,阿里Qwen2-72B以总分303分排名第一,其中语文124分(满分150分),数学70分(满分150分),英语109分(满分120分);GPT-4o以总分296分位居第二,其中语文111.5分,数学73分,英语111.5分;“书生·浦语”2.0文曲星以0.5分之差排名第三,其中语文112分,数学75分,英语108.5分。

首个AI高考全卷评测结果发布:数学全都不及格

7个大模型的语数外得分情况

可以看到,“AI考生”三甲都擅长文科,语文和英语成绩优良,然而它们的数学推理能力有待提升,高考数学成绩都不及格。目前,数学是所有大模型的短板,得益于上海人工智能实验室在数学推理上的投入,“书生·浦语”2.0文曲星在高考中得到75分,在所有受测模型中位居榜首,但仍存在较大的提升空间。

阅卷老师点评“考生”表现

对于这些“AI考生”的语数外水平,老师们给出了中肯的评价——

语文评卷显示,大模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题,虽然有针对性,但缺乏修饰,几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”,大模型还无法完全理解。

首个AI高考全卷评测结果发布:数学全都不及格

7个大模型的语文各题型得分情况

数学评卷显示,大模型的主观题回答相对凌乱,而且解题过程有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强,但无法在解题过程中灵活运用。

首个AI高考全卷评测结果发布:数学全都不及格

7个大模型的数学各题型得分情况

大模型的英语整体表现良好,然而部分模型由于不适应一些题型,在七选五、完形填空等题型上得分较低。大模型写的英语作文普遍存在因超出字数限制被扣分的情况,而人类考生大多因为字数不够被扣分。

首个AI高考全卷评测结果发布:数学全都不及格

7个大模型的英语各题型得分情况

(综合自上观新闻、新民晚报)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-20 15:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格
2024-06-26 07:26:00
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示
2024-06-24 09:22:00
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试
2024-06-20 10:19:00
...获国内头筹在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分。据介绍,本次
2024-06-26 11:14:00
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
...,还真的有人试了。上海人工智能实验室近日公布了司南评测体系OpenCompass选取开源大模型测试今年高考的全国新课标I卷“语数外”的结果,为了确保“闭卷”考试,大模型的开源
2024-06-26 22:29:00
大模型权威报告:讯飞星火得分第一
...、物理、医学5个二级分类,题型上以单选和简答为主。评测结果中,讯飞星火78.50%的得分率排名第一。另外,讯飞星火在理科综合大类下80%的二级分类评测中得分率为第一,化学与生
2023-08-18 09:35:00
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的
2024-03-04 10:23:00
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...其测试结果位于国内中文大模型的前列。在MMLU英文权威评测榜单上,baichuan-7B也超过了Meta旗下的LLaMA-7B
2023-06-15 16:53:00
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解
2024-05-17 17:26:00
更多关于科技的资讯:
中亦科技荣膺华为云“2025年度擎帆奖”
2026年1月23日,华为云“同心·共行·致远”北京伙伴大会盛大召开。会上,中亦科技凭借在数据库联合解决方案创新及行业纵深拓展中的卓越表现
2026-02-05 21:33:00
归母净利润预增123% 科沃斯:用专注与具象解码科技
东经120.721093,北纬31.213668,这个坐标点正因一家上市公司的到来,变得充满生机与活力——2月4日16时左右
2026-02-05 19:22:00
合肥年货节设立萌宠专区,把宠物友好写进购物清单
大皖新闻讯 2月5日,2026年第十六届合肥年货节盛大启幕,国内外500余家企业齐聚合肥滨湖国际会展中心。大皖新闻记者发现
2026-02-05 19:59:00
北京海淀开展坚果炒货食品专项检查
近日,北京市海淀区市场监管局开展坚果炒货食品专项检查。本次重点检查产品的生产日期、保质期、生产厂家等信息是否标注清晰,是否存在过期、变质等问题。中国消费者报记者董芳忠摄影报道
2026-02-05 14:37:00
马上元梦 数字新生|元梦空间绘蓝图 马上元梦嘉年华大会蓉城圆满落幕
2026年2月3日,由元梦空间文化传播(成都)有限公司、元界乐享智联(深圳)科技有限公司、全球元宇宙酒店集团、大湾区企业家联合会联合主办的 “马上元梦数字新生——元梦空间2026马上元梦嘉年华大会”在成都温江皇冠假日酒店盛大举行
2026-02-05 15:08:00
第57次《中国互联网络发展状况统计报告》今天发布。报告显示,截至2025年12月,我国网民规模达11.25亿人,互联网普及率突破80%
2026-02-05 15:21:00
2026年1月以来,一款名为OpenClaw(曾用名Clawdbot、Moltbot)的智能体项目在国际开源社区迅速走红
2026-02-05 15:47:00
中国消费者报南京讯(记者桑雪骐)2月4日,苏州奥体中心体育场灯光璀璨,追觅科技与央视携手打造的“敢梦敢为•追觅之夜”演唱会正式举行
2026-02-05 14:37:00
史上首次!米兰冬奥基于阿里千问打造奥运官方大模型
2月5日,米兰冬奥会开幕在即,国际奥委会主席柯丝蒂·考文垂在国际转播中心举行的活动中宣布,国际奥委会已基于阿里千问大模型打造了奥运史上首个官方大模型
2026-02-05 13:40:00
华商观察丨智能儿童手表席卷全球 安全与隐私红灯亮起
智能儿童手表的全球普及浪潮,正伴随技术迭代与家长安全需求快速推进,成为数字时代儿童生活的标志性设备。据 Global Growth Insights 2025 年 12 月发布的行业报告显示
2026-02-05 11:29:00
All in AI, 重塑保险!中国太保首届科技创新大会燃动申城
鲁网2月5日讯当人工智能成为驱动产业变革的核心引擎,保险行业正迎来从传统模式向数智化跨越的关键拐点。1月30日,中国太保以“All in AI
2026-02-05 11:06:00
2026微信小程序开发服务商推荐:技术与服务双维筛选指南
据2025年中国电子商务协会发布的《小程序生态发展白皮书》显示,当年微信小程序交易规模突破8.3万亿元,同比增长41.2%
2026-02-05 08:12:00
义乌世界杯订单生产进入“冲刺期”
2026年美加墨足球世界杯将在6月启幕。从2025年5月开始,义乌市场上的世界杯订单就陆续而至,如今,球迷服装等世界杯相关体育用品的销售和生产已经进入“冲刺期”
2026-02-05 08:19:00
厦门网讯 (厦门日报记者 李晓平)在商业航天产业化浪潮与国产航空装备升级的双重驱动下,一场关于“星辰大海”的产业竞逐正在上演
2026-02-05 08:30:00
10米/秒,全球最快!杭州造出超高速人形机器人
超高速人形机器人Bolt 镜识科技供图2月2日傍晚,镜识科技发布旗下首款全尺寸人形机器人Bolt。“滴答”一声,红色的人形机器人已冲出10米开外
2026-02-05 08:49:00