• 我的订阅
  • 科技

上海人工智能实验室公布首个ai高考全卷评测结果

类别:科技 发布时间:2024-06-20 10:19:00 来源:浅语科技

6月20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。

评测采用全国新课标I卷,参与评测的所有开源模型开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

该机构表示,Qwen2-72B、GPT-4o及书生・浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。

具体来看,InternLM2-20B-WQX取得了数学单科的最高分,超越包括GPT-4o在内的所有模型。

IT之家注:此次参与“大模型高考”评测的产品包含GPT-4o及其他6个模型。为公平起见,此次评测没有纳入商用闭源模型。

Mixtral8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型。

Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。

GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。

InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生・浦语2.0系列文曲星大语言模型。

Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。

Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。

语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生・浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾,仅拿下185分。

上海人工智能实验室公布首个ai高考全卷评测结果

数学是所有大模型的短板,平均得分率仅有36%,参与测试的大模型无一及格。

上海人工智能实验室公布首个ai高考全卷评测结果

此外,阅卷教师也对大模型表现进行了整体分析,为模型能力提升策略提供参考。

语文

模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。

大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。

多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

数学

大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。

大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

英语

英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。

大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-20 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

首个AI高考全卷评测结果发布:最高分303,数学全不及格
...能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示
2024-06-24 09:22:00
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分
2024-06-20 11:10:00
国内首个官方“大模型标准符合性评测”公布
...方公众号,在12月22日的全国信息技术标准化技术委员会人工智能分委会全体会议期间,国内首个官方“大模型标准符合性评测”结果公布,腾讯混元大模型、阿里通义千问等大模型成为首批通
2023-12-23 15:09:00
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解
2024-05-17 17:26:00
...技术生态、产业生态和开放性等多个维度进行评估,确保评测结果客观真实。此次评测结果将形成针对特定应用场景的综合报告和产品推荐目录,为政府、企业和研究机构建设智算中心提供芯片选型
2023-10-23 15:02:00
...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格
2024-06-26 07:26:00
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65
2024-06-29 09:36:00
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...或者联系报道。本文的主要作者来自上海交通大学和上海人工智能实验室智慧医疗联合团队,共同第一作者为上海交通大学博士生邱芃铖和吴超逸,共同通讯作者为上海交通大学人工智能学院王延峰
2024-09-30 09:51:00
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
...代替学生去高考,会怎么样?欸,还真的有人试了。上海人工智能实验室近日公布了司南评测体系OpenCompass选取开源大模型测试今年高考的全国新课标I卷“语数外”的结果,为了确
2024-06-26 22:29:00
更多关于科技的资讯: