我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

“AI考生”闯关高考，谁是最会做题大模型？

类别：科技发布时间：2024-06-26 07:26:00 来源：每日看点快看

本文转自：中国科学报

■本报记者赵广立

2024年全国高考的“硝烟”刚刚散去，“大模型考生”就被抓回来重新“做题”了。

市面上涌现出的大模型产品让人眼花缭乱，围绕“大模型技术哪家强”的讨论不绝于耳，各色名目的大模型评测应运而生。作为国内最权威的考试之一，高考覆盖各类学科及题型，同时在开考前这些题属于“绝密”，非常适合用来作为考查大模型智能水平的评测工具，堪称大模型综合能力的“试金石”。

连日来，一些专业机构纷纷下场，使用市面上常见的大模型产品如通义千问、字节豆包、讯飞星火、文心一言、腾讯元宝、月之暗面Kimi等作为“考生”，围绕“大模型高考测试”得出了一系列结果，为人们更好地了解大模型产品的性能和特点提供了参考样本。

AI高考数学全不及格？换个打开方式试试

近期，一则“AI高考测试出分，数学全不及格”的消息登上“热搜”。

消息出自上海人工智能实验室旗下司南评测体系OpenCompass对7个开源大模型进行的高考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果，大模型的语文、英语考试水平还不错，但数学都不及格，最高分只有75分（满分150分）。

参加OpenCompass此次高考测试的大模型，分别是来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型。OpenCompass称，因无法确定闭源模型的更新时间，此次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。

对于数学测试全部不及格，OpenCompass表示，“大模型在数学方面还有很大的提升空间”。

不过，复旦大学自然语言处理（NLP）实验室LLMEVAL团队主持的高考数学评测显示，大模型数学成绩不佳的结果，可能缘于“打开方式不对”。

首先，LLMEVAL团队选取了2024年高考新I卷、新II卷数学试卷的客观题（单选、多选和填空题，共73分）来评测，得出了不同的结论。使用客观题测试大模型的好处是，对就是对、错就是错，结果一目了然。同时主观题由于解题方法、思路存在差异，具有一定的主观性，如果结果不正确，就很难客观地评出步骤分。

其次，此次大模型“考生”增加到12个：阿里巴巴Qwen2-72b、讯飞星火、GPT-4o、字节豆包、智谱GLM4-0520、百川智能Baichuan4、谷歌Gemini-1.5-Pro、文心一言4.0、MiniMax海螺、腾讯元宝、月之暗面Kimi、DeepSeek-V2-Chat。

另外，他们在评测中发现，数学问题不同格式的提示输入（Prompt）对大模型性能影响很大。在最初的评测中，LLMEVAL团队对数学题目中的公式部分采用了通过光学字符识别（OCR）后输出的格式（转义符格式），最新一次评测则使用了Latex格式进行了横向对比评测。

结果显示，大多数模型的两次测试结果均出现较大差异，不过使用Latex格式后，大模型整体表现更佳：2024年全国高考新I卷、新II卷数学测试中，得分率超过50%的大模型产品数量由此前的5个和6个升至7个和9个。考虑到Latex格式更符合人类实际使用大模型时所采用的格式，LLMEVAL团队建议后续测试主要基于此格式。

具体而言，LLMEVAL团队使用Latex格式Prompt的测试结果显示，在2024年全国高考新I卷数学测试中，阿里巴巴Qwen2-72b、讯飞星火的得分率均超过及格线（60%），分别为78.08%和71.23%；在2024年全国高考新II卷数学测试中，讯飞星火、阿里巴巴Qwen2-72b和GPT-4o的得分率也超出了及格线，分别为65.07%、63.70%、62.33%。

由此可见，大模型在数学方面并非“热搜”所说那样完全不及格，讯飞星火、阿里巴巴Qwen2-72b等国产大模型在高考数学客观题中具有较高的准确率，令人眼前一亮。当然，LLMEVAL团队在评测后也指出，大模型在数学推理任务中的鲁棒性与准确性仍有很大的提升空间。

语文、英语高考测试，作文见真章

“AI考生”之于语文、英语高考，最引人注目的当数大模型的作文水平了。

对于考生而言，作文考试主要考查学生运用语言成文的能力，考查的是识字情况、用词组句的能力以及表达事实、思想或观点的能力。事实上，作文是最能考验大模型语言理解能力和文本生成能力的测评工具，这两项能力正是时下大模型最为倚重的。

2024年全国高考语文科目考试一结束，就有不少场外师生使用市面上的大模型产品“写作文”。围绕新课标I卷高考作文题“答案与问题”、新课标II卷“抵达未知之境”、北京高考（1）（2）卷的作文题“历久弥新”和“打开”等题目，文心一言、讯飞星火等多家大模型产品纷纷化身“写手”，并交出“作品”。

一些大模型作文令人眼前一亮。以全国新高考I卷的作文题为例，在这个具有思辨性的题目引导下，大模型提交的部分作文题不仅切题，更显巧妙，如《问，岂可少？》《疑问如春芽，答案似剪刀》《于无疑处生疑，方是进矣》《问题不止，智慧无穷》《智涌未来，问海无涯》，等等。

近日，全国中小学生作文竞赛评委、中学语文教研专家吕政嘉和河南省基础教育教学专家库成员李来明共同对市面上7款大模型产品的上述4张试卷的作文进行了评测打分。从打分情况来看，讯飞星火、文心一言4.0、腾讯元宝在4张试卷的作文题上均有不俗表现，最高平均得分接近50分。

能拿50分的AI作文长啥样？讯飞星火作出的《问，岂可少？》得到均分51.5的评分。李来明对该文的评语为，“全文结构完整，思路清晰，论证层层递进，结构框架清晰明了。全文多处扣题生发议论，鞭辟入里，分析得当。但在一些地方，可以适当增加一些论证手法，使文章更加生动有趣”。

在高考英文作文题目“帮李华写邮件”中，中国外语教育研究中心特约研究员、知名教研策划专家周国荣和广东国家级示范校教师杨菁菁也对上述7款大模型产品的英语作文进行了评测和打分。他们将2024年高考真题作文要求输入7款大模型产品，生成作文后，由教研双评给出评分并作最高分点评。

全国高考卷的英语应用文写作题中，7款大模型产品均能完成试题规定的写作任务，结构上也能做到逻辑清晰、结构合理，其中不乏能够使用复杂句式，在语言表达上有多处亮点的作品。但这些文章也有一些明显的扣分项，如使用超纲词汇、超过字数上限等。打分方面，7款产品均有超过12分（满分15分）的表现，且得分相对稳定。

在难度更高的全国高考英语卷“读后续写”题目和北京卷英语作文题中，7款大模型产品的表现有了差别。周国荣和杨菁菁的打分和点评显示，讯飞星火、腾讯元宝在“读后续写”题目中高分领先；在北京卷英语作文题中，讯飞星火、月之暗面Kimi、文心一言4.0排前三位。综合来看，国产大模型在中国高考的表现不落下风，有着教育行业背景的讯飞星火大模型在一众大模型中表现抢眼，堪称“更会做题的大模型”。

评测，还有很长的路要走

评测作为对机器理解、处理、应用自然语言能力的一种评估和量化手段，是大模型领域技术水平和研究进展的直观体现，是相关研究的工具和重要驱动力。

北京大学计算语言学研究所教授穗志方日前在“大模型+计算语言”专题论坛上的报告中表示，大模型在人类标准化考试中如中国高考、公务员考试、美国SAT考试等的表现，能够为其在真实世界中的能力提供评估参考，但仍存在一些问题。如一些模型在诸如SAT数学测试等任务中表现优异，但在复杂推理或特定知识领域中的表现却又不够出色。截然相反的表现，让人无从评判。

“在大模型内在机理没有探究清楚的情况下，我们目前的评测路径只能依靠从外部表现来推测内在能力。”穗志方说，现有评测仍存在规范性、系统性及科学性方面的问题，评测的深度和广度方面有待改进。

她提出，未来大模型评测应当以具有综合考查能力的类人机器语言能力评测为目标，在参考信度、难度、效度三大原则的基础上，发展更系统的评测大纲、更具挑战的评测任务、更科学的评测方法，采取更多样、更鲁棒的评测手段，科学高效地为大模型提供客观、公平、类人的评测结果。如此，方能引领和推动人工智能领域各类模型、方法的提出和创新。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-06-26 09:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于考生,模型,高考,模型,评测,高考的资讯：

首个AI高考全卷评测结果发布：数学全都不及格

...英语108.5分。7个大模型的语数外得分情况可以看到，“AI考生”三甲都擅长文科，语文和英语成绩优良，然而它们的数学推理能力有待提升，高考数学成绩都不及格。目前，数学是所有大

2024-06-20 11:10:00

首个AI高考全卷评测结果发布：最高分303，数学全不及格

...模型，仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前（2024年4月-6月）开源，避免了“刷题风险”。从结果来看，大模型的语文、英语考试水平普遍不错，但

2024-06-24 09:22:00

上海人工智能实验室公布首个ai高考全卷评测结果

...次大模型高考的前三甲，得分率均超过70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。具体来看

2024-06-20 10:19:00

AI大模型参加高考 GPT-4o文科成绩最好理科普遍不行

...办了一项“另类高考”，让近两年大火的AI大模型来模拟考生作答高考试题，看它们的表现究竟如何。从该媒体公布的最新发布高考新课标Ⅰ卷大模型评测报告中，GPT-4o以562分排名文

2024-06-27 19:06:00

让AI去高考，豆包等四款大模型考上文科“一本”

...法达到及格水平。大模型的理科最好成绩还无法进入人类考生的前30%。以数学试卷为例，9款大模型产品中，仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分)，目

2024-06-26 11:14:00

AI大模型也高考？成绩单出来了，星火综合第一

...湘晨报、量子位等多家权威媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的评测，并公布了成绩。我们来一起回顾一下：首先进行的是高考作文的评测。在搜狐科技

2024-06-12 09:29:00

填志愿上2023贵州高考网博会试试多彩宝高考志愿通

...州省高考填报志愿时间为6月27日0时至6月30日18时。为助力考生志愿填报，2023年贵州高考网博会——贵州高考考生一站式服务平台推出系列活动，其中，云上贵州多彩宝推出“多彩

2023-06-27 21:36:00

大厂AI，还干不掉张雪峰

...凭借着智能、高效和免费，这些“AI张雪峰们”迅速成为考生和家长们眼中的“香饽饽”。然而，大厂的目标，并不止于此。志愿填报不仅是抢占流量入口、低成本获取用户的手段，也是获取教育

2025-06-27 18:48:00

靠谱星途规划师操作系统发布：AI与专业规划师的深度融合，千亿

...规划师的专业经验，可极速生成个性化志愿填报方案，为考生提供更优质的志愿填报服务。“我们希望借助大模型的力量，打破传统咨询的瓶颈，帮助规划师实现工作流程的优化，提高填报的精准度

2024-11-18 16:58:00

更多关于科技的资讯：

聚焦2025中国国际数字经济博览会·现场丨人机协同，赛场上演

你见过“机器人总动员”吗？10月18日，记者走进石家庄（正定）国际会展中心6、7号馆，科技感扑面而来。一场场不同类别的机器人赛事激烈角逐

2025-10-19 08:23:00

聚焦2025中国国际数字经济博览会·记者观察｜释放数据价值，

释放数据价值，“乘”出产业转型新动能——2025中国国际数字经济博览会探新之二随着新一轮科技革命和产业变革深入发展，数据作为关键生产要素的价值日益凸显

2025-10-19 08:27:00

青春华章丨江苏南京：“宁工品推”，“推”出产业发展新空间

□南京日报/紫金山新闻记者徐宁实习生黄倩通讯员李晓晨陈欣苇俞堃在南京，“政府搭台、企业唱戏、共谋发展”的生动实践持续结出硕果

2025-10-19 09:54:00

在宁企业斩获二金奖一银奖

二〇二五年广交会设计创新奖出炉在宁企业斩获二金奖一银奖南报网讯（记者黄琳燕）10月18日，2025年广交会设计创新奖（CF奖）颁奖仪式在广交会展馆举行

2025-10-19 09:55:00

聚焦2025中国国际数字经济博览会丨产业数字金融发展的创新路

产业数字金融发展的创新路径与实践研讨会举办，与会嘉宾建议——找准金融机构数字化转型赋能产业发展路径河北日报讯（记者马彦铭）10月17日

2025-10-19 09:57:00

DCF AI智能商城：智能技术重塑购物新范式

DCF AI智能商城作为一款新兴的电商平台，其核心在于将智能化技术融入购物全程，为用户带来更合规、更真实、更便捷的消费体验

2025-10-19 13:21:00

DCF智能商城商业愿景

DCF智能商城面向农产品场景上线一组功能与体验升级，核心目标很直接：把产地和特点说清楚，把来路和批次摆出来，把配送和售后讲明白

2025-10-19 13:22:00

奢侈品牌梅杜莎Medusa登陆中国，营业范围涵盖实体店及电商

近日，国际奢侈品市场传来重磅消息：顶级奢侈品牌梅杜莎Medusa正式宣布登陆中国市场，其在中国区的运营将由意大利梅杜莎奢侈品集团有限公司全资控股的子公司 —— 广州丹尼尔钟表有限公司全权负责

2025-10-19 13:22:00

安徽阜阳：“三维”发力破局市场困境激活消费新动能

面对市场结构性矛盾,安徽省阜阳市烟草专卖局直属分局创新工作方法,从三个维度精准施策,有效激发卷烟消费市场活力。为有效缓解供需矛盾

2025-10-19 15:45:00

中企通信赋能盈科律师事务所荣膺2025 IDC中国未来企业奖

2025年10月17日，上海 — 中企网络通信技术有限公司（简称“中企通信”）欣然宣布，其创新ICT赋能的盈科律师事务所（简称“盈科律所”）在2025年IDC中国CIO峰会暨数字化转型颁奖典礼上脱颖而出

2025-10-19 15:46:00

3金4银2铜4提名，鲸鸿动能斩获金投赏商业创意奖13项大奖

10月17日，金投赏商业创意奖颁奖典礼落幕，鲸鸿动能案例斩获3金4银2铜4提名，共获13项大奖。其中《〈抚痕倡议〉社会共创运动——为4亿中国妈妈推动改变》荣获公关整合传播金奖

2025-10-19 15:48:00

2025 杭州科创嘉年华启幕

10月16日，“天堂硅谷・云创未来”2025 杭州科创嘉年华在汇金云创・人才科创综合体盛大启幕。这场以“人文、科学、生活

2025-10-19 15:51:00

牢记嘱托感恩奋进——安徽往前赶 | 合肥科创生态何以“育林

大皖新闻讯从实验室的“量子测量”到医院的“空中成像”，从“00后”团队的具身机器人到24小时登顶全球的AI大模型，合肥这片创新沃土正在上演一场“育苗成林”的生动实践

2025-10-19 21:27:00

海报丨数说津彩“十四五” 天津交出亮眼答卷扫码阅读手机版

原标题:海报丨数说津彩“十四五” 天津交出亮眼答卷

2025-10-19 23:17:00

聚焦2025中国国际数字经济博览会·访谈｜沈昌祥：发挥优势，

发挥优势，不断筑牢人工智能安全底座——访中国工程院院士沈昌祥中国工程院院士沈昌祥。河北日报记者李东宇摄2025中国国际数字经济博览会的主题为“可信数据赋能产业发展”

2025-10-18 08:25:00

头条订阅服务

“AI考生”闯关高考，谁是最会做题大模型？