• 我的订阅
  • 科技

“AI考生”闯关高考,谁是最会做题大模型?

类别:科技 发布时间:2024-06-26 07:26:00 来源:每日看点快看

本文转自:中国科学报

■本报记者 赵广立

2024年全国高考的“硝烟”刚刚散去,“大模型考生”就被抓回来重新“做题”了。

市面上涌现出的大模型产品让人眼花缭乱,围绕“大模型技术哪家强”的讨论不绝于耳,各色名目的大模型评测应运而生。作为国内最权威的考试之一,高考覆盖各类学科及题型,同时在开考前这些题属于“绝密”,非常适合用来作为考查大模型智能水平的评测工具,堪称大模型综合能力的“试金石”。

连日来,一些专业机构纷纷下场,使用市面上常见的大模型产品如通义千问、字节豆包、讯飞星火、文心一言、腾讯元宝、月之暗面Kimi等作为“考生”,围绕“大模型高考测试”得出了一系列结果,为人们更好地了解大模型产品的性能和特点提供了参考样本。

AI高考数学全不及格?换个打开方式试试

近期,一则“AI高考测试出分,数学全不及格”的消息登上“热搜”。

消息出自上海人工智能实验室旗下司南评测体系OpenCompass对7个开源大模型进行的高考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格,最高分只有75分(满分150分)。

参加OpenCompass此次高考测试的大模型,分别是来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型。OpenCompass称,因无法确定闭源模型的更新时间,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。

对于数学测试全部不及格,OpenCompass表示,“大模型在数学方面还有很大的提升空间”。

不过,复旦大学自然语言处理(NLP)实验室LLMEVAL团队主持的高考数学评测显示,大模型数学成绩不佳的结果,可能缘于“打开方式不对”。

首先,LLMEVAL团队选取了2024年高考新I卷、新II卷数学试卷的客观题(单选、多选和填空题,共73分)来评测,得出了不同的结论。使用客观题测试大模型的好处是,对就是对、错就是错,结果一目了然。同时主观题由于解题方法、思路存在差异,具有一定的主观性,如果结果不正确,就很难客观地评出步骤分。

其次,此次大模型“考生”增加到12个:阿里巴巴Qwen2-72b、讯飞星火、GPT-4o、字节豆包、智谱GLM4-0520、百川智能Baichuan4、谷歌Gemini-1.5-Pro、文心一言4.0、MiniMax海螺、腾讯元宝、月之暗面Kimi、DeepSeek-V2-Chat。

另外,他们在评测中发现,数学问题不同格式的提示输入(Prompt)对大模型性能影响很大。在最初的评测中,LLMEVAL团队对数学题目中的公式部分采用了通过光学字符识别(OCR)后输出的格式(转义符格式),最新一次评测则使用了Latex格式进行了横向对比评测。

结果显示,大多数模型的两次测试结果均出现较大差异,不过使用Latex格式后,大模型整体表现更佳:2024年全国高考新I卷、新II卷数学测试中,得分率超过50%的大模型产品数量由此前的5个和6个升至7个和9个。考虑到Latex格式更符合人类实际使用大模型时所采用的格式,LLMEVAL团队建议后续测试主要基于此格式。

具体而言,LLMEVAL团队使用Latex格式Prompt的测试结果显示,在2024年全国高考新I卷数学测试中,阿里巴巴Qwen2-72b、讯飞星火的得分率均超过及格线(60%),分别为78.08%和71.23%;在2024年全国高考新II卷数学测试中,讯飞星火、阿里巴巴Qwen2-72b和GPT-4o的得分率也超出了及格线,分别为65.07%、63.70%、62.33%。

由此可见,大模型在数学方面并非“热搜”所说那样完全不及格,讯飞星火、阿里巴巴Qwen2-72b等国产大模型在高考数学客观题中具有较高的准确率,令人眼前一亮。当然,LLMEVAL团队在评测后也指出,大模型在数学推理任务中的鲁棒性与准确性仍有很大的提升空间。

语文、英语高考测试,作文见真章

“AI考生”之于语文、英语高考,最引人注目的当数大模型的作文水平了。

对于考生而言,作文考试主要考查学生运用语言成文的能力,考查的是识字情况、用词组句的能力以及表达事实、思想或观点的能力。事实上,作文是最能考验大模型语言理解能力和文本生成能力的测评工具,这两项能力正是时下大模型最为倚重的。

2024年全国高考语文科目考试一结束,就有不少场外师生使用市面上的大模型产品“写作文”。围绕新课标I卷高考作文题“答案与问题”、新课标II卷“抵达未知之境”、北京高考(1)(2)卷的作文题“历久弥新”和“打开”等题目,文心一言、讯飞星火等多家大模型产品纷纷化身“写手”,并交出“作品”。

一些大模型作文令人眼前一亮。以全国新高考I卷的作文题为例,在这个具有思辨性的题目引导下,大模型提交的部分作文题不仅切题,更显巧妙,如《问,岂可少?》《疑问如春芽,答案似剪刀》《于无疑处生疑,方是进矣》《问题不止,智慧无穷》《智涌未来,问海无涯》,等等。

近日,全国中小学生作文竞赛评委、中学语文教研专家吕政嘉和河南省基础教育教学专家库成员李来明共同对市面上7款大模型产品的上述4张试卷的作文进行了评测打分。从打分情况来看,讯飞星火、文心一言4.0、腾讯元宝在4张试卷的作文题上均有不俗表现,最高平均得分接近50分。

能拿50分的AI作文长啥样?讯飞星火作出的《问,岂可少?》得到均分51.5的评分。李来明对该文的评语为,“全文结构完整,思路清晰,论证层层递进,结构框架清晰明了。全文多处扣题生发议论,鞭辟入里,分析得当。但在一些地方,可以适当增加一些论证手法,使文章更加生动有趣”。

在高考英文作文题目“帮李华写邮件”中,中国外语教育研究中心特约研究员、知名教研策划专家周国荣和广东国家级示范校教师杨菁菁也对上述7款大模型产品的英语作文进行了评测和打分。他们将2024年高考真题作文要求输入7款大模型产品,生成作文后,由教研双评给出评分并作最高分点评。

全国高考卷的英语应用文写作题中,7款大模型产品均能完成试题规定的写作任务,结构上也能做到逻辑清晰、结构合理,其中不乏能够使用复杂句式,在语言表达上有多处亮点的作品。但这些文章也有一些明显的扣分项,如使用超纲词汇、超过字数上限等。打分方面,7款产品均有超过12分(满分15分)的表现,且得分相对稳定。

在难度更高的全国高考英语卷“读后续写”题目和北京卷英语作文题中,7款大模型产品的表现有了差别。周国荣和杨菁菁的打分和点评显示,讯飞星火、腾讯元宝在“读后续写”题目中高分领先;在北京卷英语作文题中,讯飞星火、月之暗面Kimi、文心一言4.0排前三位。综合来看,国产大模型在中国高考的表现不落下风,有着教育行业背景的讯飞星火大模型在一众大模型中表现抢眼,堪称“更会做题的大模型”。

评测,还有很长的路要走

评测作为对机器理解、处理、应用自然语言能力的一种评估和量化手段,是大模型领域技术水平和研究进展的直观体现,是相关研究的工具和重要驱动力。

北京大学计算语言学研究所教授穗志方日前在“大模型+计算语言”专题论坛上的报告中表示,大模型在人类标准化考试中如中国高考、公务员考试、美国SAT考试等的表现,能够为其在真实世界中的能力提供评估参考,但仍存在一些问题。如一些模型在诸如SAT数学测试等任务中表现优异,但在复杂推理或特定知识领域中的表现却又不够出色。截然相反的表现,让人无从评判。

“在大模型内在机理没有探究清楚的情况下,我们目前的评测路径只能依靠从外部表现来推测内在能力。”穗志方说,现有评测仍存在规范性、系统性及科学性方面的问题,评测的深度和广度方面有待改进。

她提出,未来大模型评测应当以具有综合考查能力的类人机器语言能力评测为目标,在参考信度、难度、效度三大原则的基础上,发展更系统的评测大纲、更具挑战的评测任务、更科学的评测方法,采取更多样、更鲁棒的评测手段,科学高效地为大模型提供客观、公平、类人的评测结果。如此,方能引领和推动人工智能领域各类模型、方法的提出和创新。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-26 09:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

首个AI高考全卷评测结果发布:数学全都不及格
...英语108.5分。7个大模型的语数外得分情况可以看到,“AI考生”三甲都擅长文科,语文和英语成绩优良,然而它们的数学推理能力有待提升,高考数学成绩都不及格。目前,数学是所有大
2024-06-20 11:10:00
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。从结果来看,大模型的语文、英语考试水平普遍不错,但
2024-06-24 09:22:00
上海人工智能实验室公布首个ai高考全卷评测结果
...次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。具体来看
2024-06-20 10:19:00
AI大模型参加高考 GPT-4o文科成绩最好 理科普遍不行
...办了一项“另类高考”,让近两年大火的AI大模型来模拟考生作答高考试题,看它们的表现究竟如何。从该媒体公布的最新发布高考新课标Ⅰ卷大模型评测报告中,GPT-4o以562分排名文
2024-06-27 19:06:00
...法达到及格水平。大模型的理科最好成绩还无法进入人类考生的前30%。以数学试卷为例,9款大模型产品中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分),目
2024-06-26 11:14:00
AI大模型也高考?成绩单出来了,星火综合第一
...湘晨报、量子位等多家权威媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的评测,并公布了成绩。我们来一起回顾一下: 首先进行的是高考作文的评测。在搜狐科技
2024-06-12 09:29:00
填志愿上2023贵州高考网博会 试试多彩宝高考志愿通
...州省高考填报志愿时间为6月27日0时至6月30日18时。为助力考生志愿填报,2023年贵州高考网博会——贵州高考考生一站式服务平台推出系列活动,其中,云上贵州多彩宝推出“多彩
2023-06-27 21:36:00
靠谱星途规划师操作系统发布:AI与专业规划师的深度融合,千亿参数大模型赋能高考志愿填报
...规划师的专业经验,可极速生成个性化志愿填报方案,为考生提供更优质的志愿填报服务。“我们希望借助大模型的力量,打破传统咨询的瓶颈,帮助规划师实现工作流程的优化,提高填报的精准度
2024-11-18 16:58:00
AI大模型教育应用场景,靠谱AI向高考志愿填报规划师发出挑战
...的市场付费规模将预计达9.5亿元。同时,88.1%受调研的高考生表示愿意选择高考志愿填报服务,消费需求旺盛。人民日报指出,填报志愿,重要性自不待言,也确实是个技术活。尤其是现
2024-06-14 12:12:00
更多关于科技的资讯: