• 我的订阅
  • 科技

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

类别:科技 发布时间:2024-06-28 09:19:00 来源:新智元

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

新智元报道

编辑:编辑部

【新智元导读】真实的大学考试,已经被AI渗透了!英国雷丁大学的一项研究发现,在大学考试中,有94%的AI生成内容完全没有被老师发现。也就是说,如果学生真的有心用GPT-4作弊,大概率会获得好成绩,而且很难被发现。

AI大模型参加考试,已经通过图灵测试!

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

调查显示,94%的AI内容,完全不会被大学老师发现。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

而且「AI同学」的成绩,83.4%的情况下显著高于人类学生。

看来,AI真的是要把人类的考试给攻陷了。

其实,早在GPT-4发布时,OpenAI就声称,它能在SAT的阅读和数学考试中分别打败93%和89%的人类。

虽然数字让人震惊,但技术报告中并没有披露这些数据是如何得到的,以及实验的具体设置如何。这大大削弱了数据的可信度。

之前虽然也有很多关于AI参与考试作弊的研究,但它们大多是在实验环境中得出数据,与真实情景还是有所差距。

但最近英国的研究人员在现实的大学考试中为AI做的这次「图灵测试」,已经将实验过程和数据以论文的形式发布了出来。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

结果发现,虽然我们每天抱怨AI生成的文本「一眼假」,但实际上大学老师也很容易它蒙混过去,有94%的AI生成内容——完全没有被发现!

此外,AI内容的平均水平也显著高于人类同学,差距大概是半个等级。在83.4%的情况下,AI的成绩高于随机选择的学生。

这就让人类真实的颤抖了……

这也就意味着,AI的「以假乱真」程度再次被证实,在能力上不仅可以替代掉打工人,还在认知任务上完全碾压了大学生。

那么论文到底是如何描述这次「碾压」的?我们先来看看具体过程。

「伪装」过程

描述这种在真实世界中进行的「图灵测试」,画面感强到像是真人秀现场。

团队选中了英国雷丁大学的心理学和临床语言科学学院,但完全没有告知考试评分员。除了参与批准研究的人和负责帮助AI伪装成学生的行政人员,没有人知道这项正在开展的研究。

在COVID之后,像很多英国大学一样,雷丁大学也更多地转向线上考试。学生在规定时间中完成题目或论文,而且是完全的开卷模式,参考课程材料、论文、书籍、互联网材料都是被允许的。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

这项考试共有两种题型,一是简答题(SAQ),2.5小时内完成,从6个问题中任选4题回答,答案不超过200词;二是论文题(Essay),从3~4个题目中任选其一,在8小时内完成一篇1500词的论文。

每个考试模块中都混入了约占总数5%的AI生成内容。这个比例不会造成额外的评分负担,也让两位作者能够在规定时间内确保提交的AI内容没有出现自相似情况,否则会很容易被判定为抄袭。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

实验中的5个部分,P表示考试的学生年级,M表示考试内容模块

作者使用标准化的提示词让GPT-4生成每种类型考试的答案。对于简答题(SAQ),提示词是:

包括对学术文献的引用,但不需要单独的参考文献部分,请用160词回答以下问题:XXX

对于论文题,提示词是:

包括对学术文献的引用,但不需要单独的参考文献部分,请写一篇2000词的文章回答以下问题:XXX

在与GPT-4打交道时,作者发现模型经常不遵循提示中关于字数的要求。简答题总超字数,论文又写不到规定长度,因此调整了提示词中的字数。

为了保证AI的「真实性」,GPT-4生成的内容被100%原汁原味地搬运到试卷上,作者没有添加过渡文字或用任何方式修改文本内容,最大的改动就是为论文添加必要格式,或者删去模型径自生成的免责声明和参考文献。

总而言之,原则是保证100%的AI书面答案,但要在其他地方「藏好尾巴」,防止评分人员看出破绽。

如何评分

考试按照表2中的分级规则进行评分。雷丁大学评估考试分数的流程比较复杂,涉及多个步骤和评分角色。

首先,由一名评分员对提交内容进行打分,标准是看学生在多大程度上达到了评估目标。

之后,分数会呈递给一位独立审核员,他负责考量所有提交内容的整体水平,并随机选取、阅读一部分作业,同时也要过目那些第一名评分员标记为不及格或潜在学术不端的作业。

此时,审核员的角色不是对作业进行二次评分,而是审查评分的质量、一致性和适当性。

有些模块需要多个评分员共同打分。在这部分工作开始前,评分团队会进行一次「校准会议」,通过对少量作业进行评分以及比较、讨论,评分员们需要对于如何应用评分标准达成一致。

此时,审核员依旧要发挥作用,对同一内容中不同评分员给分的一致性进行检查。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

这项研究进行于2023年夏季,当时ChatGPT已经发布,评分员们有什么检测AI作弊的方法吗?

当时,还没有自动检测工具,评分员们只能依靠自己的直觉和经验,比如1)检查答案是否「好得难以置信」,写作风格、内容水平有没有完全超出了对本科生能力的预期,2)答案的主要内容是否为课上未教授内容,3)引用的参考文献与内容本身无关。

这些经验听起来相当靠谱,甚至是比较好地捕捉到了AI生成文本的特征。但结果发现,人类的直觉终究是靠不住的。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

实验结果

多少被发现了?

在这项研究中,只要评分员将作业标记为「值得关注」,可能存在某种形式的不良学术行为或学术不端,都不需要特别提到AI,就算是被检测到了。

即使规则如此宽松,检测成功的百分比依旧少得可怜。如图1和表3所示,在P2-M2和P3-M1的两个论文题目中,检测准确率甚至为零。也就是说,作者分别混入的14篇和3篇AI文章完全没有引起评分员的警觉。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

图1:各模块中以及总体中,被标记为AI的百分比

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

表3:AI答案的检测统计数据

总体来看,AI提交的作业几乎无法检测,有94%的作业未被发现。

如果我们采用更严格的「检测」标准,要求标记时必须特别提到AI,那么97%的AI提交作业未被发现。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

图2:各模块和总体中,被标记为AI的百分比

成绩如何?

将被检测出来的AI内容剔除后,作者比较了GPT-4和人类学生的分数分布情况。图3中,橙色表示人类学生,蓝色表示GPT-4。

可以看到,蓝色部分相比橙色部分整体右移,说明AI的成绩往往集中在真实成绩分布的高端,中位数对应First或者Upper Second等级。

其中P3-M1模块是一个例外,AI的成绩集中在真实分数分布的低端。但考虑到这个模块只混入了4篇AI内容,远少于其他模块,因此可能是数据过少造成的偏误。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

图3:各模块真实(橙色)和AI(蓝色)的成绩频率直方图,以及所有模块的总成绩频率直方图

单独比较中位数则更能体现AI的优势,如图4所示,除了P3-M1模块略有落后,GPT-4的得分中位数完全超过了人类学生。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

图4:各模块真实(橙色)和AI(蓝色)的成绩中位数,以及所有模块的总成绩中位数

平均来看,AI提交作业的成绩比真实学生高出半个等级以上,但在不同模块中有所不同(见图5)。

在P1-M2模块,AI整体上获得了1级成绩,差距接近一个完整的等级。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

图5:各模块和总体中,AI提交的成绩相对于真实学生提交的成绩的优势

AI拿高分的概率有多大?

论文提出通过以下方法了解AI超越真实学生的可能性。对于每个模块的nm个AI提交作业,计算出在同一模块中,随机抽取nm个真实学生提交作业被AI提交作业超越的可能性,这里的「超越」依旧用中位数衡量。

具体过程如下:(1)随机选择nm个真实学生提交作业,(2)计算这些作业的中位成绩,(3)查看nm个AI提交作业的中位成绩是否高于这些成绩,(4)进行重复抽样,即所有真实学生提交作业在每次抽样中都保留在选择池中,并进行了10万次重抽样过程。

如图6所示,除P3-M1模块外,几乎所有模块中,随机选取的nm个真实学生提交作业被相同数量的AI作业超越的概率接近100%。例外的是P3-M1模块,其中AI提交作业在19%的情况下优于真实学生。

总体来看,各模块中随机选取的nm个真实学生提交作业AI超越的概率为83.4%。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

图6:随机选择nm份真实学生的成绩,中位数低于AI成绩的概率

这一结果可以反映出,AI提交作业能非常稳定地获得比真实学生更高的成绩。从成绩直方图(图3)可以明显看出,AI提交作业的成绩往往集中在真实学生成绩分布的高端。

实际上,我们可以简单地计算每个模块(以及总体)中,有多少学生提交作业的成绩超过了AI的中位数成绩,如图7所示。

正如预期的那样,也与图6中的重抽样结果一致。总体来看,只有16%的学生提交作业成绩超过了AI在同一模块的中位数成绩。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

图7:学生成绩高于AI的成绩中位数的百分比

成绩和可检测性的可视化

通过在二维空间中绘制数据,就可以全面了解AI获得的成绩,及其可检验性。

在下图中,x轴表示AI提交作业的可检测性,y轴表示AI提交作业的中位成绩。

研究者希望,数据可以位于某些特定区域。

其中,「最佳情况」是数据位于右下角,此时AI的可检测性为100%,但成绩为0%。

但从学术诚信的角度来看,另一种理想情况就是数据位于右上角。

这也就意味着——学生使用AI作弊,并且获得了100%的成绩,但我们能100%地检测到他们作弊了。

不理想的情况,就是数据位于左下角了,此时我们无法检测到AI的使用,但它的成绩为0%。

因此,使用AI作弊的学生可能会发现,自己做作业能获得更高的成绩,从而不再作弊。

最糟糕的情况是数据位于左上角,此时我们根本无法检测到AI的使用,但它却获得了100%的成绩。

显然,这是我们最不愿意看到的事。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

图8:AI的可探测性及其达到的等级汇总

结论与讨论

在这次测试中,研究人员对GPT-4生成的文本内容没有进行任何修改。但现实世界的更可能的情况是,学生会对生成内容进行润色和调整,这会使学术不端行为更难被发现。

总体而言,这个结果是令人担忧的。GPT-4的能力让学生们可以在利用AI作弊的情况下很难被发现,而且有极高的概率能取得更好的成绩。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

GPT-4在模块P3-M1的表现明显落后,这有两种可能的解释,一是数据不足导致的偏误,二是由于P3-M1的考试内容涉及更为抽象的逻辑推理,这也恰好是AI仍不擅长的领域。

从另一个角度来看,这也启发我们思考,应该如何看待,甚至是改革大学教育的目标与内容。

去年Nature的一篇论文就发现,AI在完成大学课程作业时,已经体现出信息搜索、集成以及批判性分析的能力,这可以完美构成大学培养目标的一部分。

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

https://www.nature.com/articles/s41598-023-38964-3

在评论区,有推特网友质疑,这项研究怕不会也是AI进行的吧?

对此,作者郑重承诺:研究内容绝对是人类进行的。

参考资料:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-28 13:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

2831人的考场,2093人替考?
...训为名,在考前大量招募英语科目自考考生,并雇佣本市大学生,准备在同年4月11日举行的高等教育自学考试中“替考”。40余名“枪手”来自各大高校。考前,会将考生客户的身份证、准考
2024-01-19 14:24:00
华裔学霸起诉哈佛大学!豆瓣8.6分纪录片,道尽亚裔的高考困境
...,高中平均成绩(GPA)高达4.65。在“美国高考”(SAT)考试中,他拿到了1590的超高分(满分1600)。按说这个成绩足以让他成为任何精英大学的热门人选,但出人意料的是
2023-06-19 09:56:00
常州一中三位毕业生被清华大学录取
...江苏省三好学生。李锦坦言,提起高中生活难免与题海、考试、压力挂钩,毕竟一场重要的考试等待着高中生们。但拨开记忆的雾霭,留下的都是些美好的东西。关刀河的荷花,傍晚的霞;天台的星
2024-07-30 15:14:00
...原因可能是出席率没有达到课程的要求,而不能参加期末考试,或学术不端、抄袭作弊等原因。“在海外留学,学术不端是非常严重的问题。轻则本门课程成绩清零,重则可能会被学校劝退。所以写
2023-07-07 15:51:00
3人上清华,2人上北大!烟台一中优秀学子分享学习经验
...大学临床医学院临床医学专业复盘,简单分为习题复盘与考试复盘。习题复盘,如果方便保存可以直接写题边上,但本人强烈提倡用活页本。高一、高二时,知识点会反复啃,所以固定一个本子没有
2023-07-26 22:02:00
【成都大运会】隐藏在大运泳池里的“学霸”
...都大运会游泳项目正式开赛,来自55个国家和地区的465名大学生运动员报名参加了游泳各项比赛。其中,有不少来自世界顶级名校的运动员“混迹”其中。他们是如何做到“身强体壮”还“聪
2023-08-06 11:34:00
...要些。高考成绩被更多海外院校认可,主流国际课程线下考试完全恢复近年来越来越多的海外院校接受中国高考成绩直接申请入读本科课程。已有超过40所英国大学认可高考成绩;加拿大名校如麦
2023-06-10 16:16:00
54岁大三的她让同学感受妈妈般温暖,张计玲:我和同学间其实是互帮互助
...成绩考入了山西工商学院学前教育专业,成为该校年龄最大学生的“山西妈妈”张计玲。6月17日,上游新闻(报料邮箱baoliaosy@163.com)记者联系到了正在山西工商学院读
2024-06-19 11:42:00
大学把成绩单寄给家长了?网友:万万没想到……
...一封信》以及辅导员、班主任联系方式。高校是否应该给大学生家长寄成绩单?对这个问题到底该如何看待?评论:高校做法打到大学生“七寸”了吗?大学给学生家长寄成绩单,更多是出于部分大
2024-04-09 10:06:00
更多关于科技的资讯: