• 我的订阅
  • 科技

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

类别:科技 发布时间:2023-04-17 10:59:00 来源:量子位

GPT-4太强,甚至已经化身“主考官”了!

给其他市面上主流的大模型打分,结果自己给了自己最高分:

95.5。(好,给自己留点努力的空间)

不过随后就没有上90的选手了。就连它的“前辈”ChatGPT(GPT-3.5),它也只给了89.1分。

随后依次是号称最强竞品的Claude、谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B,以及清华系开源模型ChatGLM-6B。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

话不多说,速来围观GPT-4到底是如何评测的?

10项能力测评

首先,来看出题人GPT-4到底想考察语言模型的哪些能力。

要求出题尽量全面,考察模型能力的不同方面,并且足够难,使得不同水平的模型有足够的区分。

于是GPT-4直接出了10道题,而且还分别告知了出题理由——具体考察了大模型什么能力,可以说是很全面了。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

(第一个问题GPT-4后面做了替换)

问题1:请简要概述小说《杀死一只知更鸟》的情节,并指出其中的主要主题。

理由:这个问题测试了模型理解和总结复杂叙事结构的能力,以及对文学作品中的主题和主旨的理解。

问题2:描述傅里叶变换的主要数学原理,并用一个简单的例子说明其应用。

理由:这个问题测试了模型以简单、易懂的方式理解和解释复杂概念的能力。

问题3:以“春天”为主题创作一首押韵的诗歌

理由:这个问题测试了模型的创造性和艺术能力,以及理解主题和生成具有上下文关联的内容的能力。

问题4:指出资本主义和社会主义之间的主要区别,并举例说明哪些国家在历史上分别遵循了这两种经济体系?

理由:这个问题测试了模型理解和总结复杂社会和政治概念的能力,并提供事实性的历史背景。

问题5:能否为解决笔记本电脑上的Wi-Fi连接问题提供一个详细的、分步骤的故障排除过程?

理由:这个问题测试了模型在提供实用的解决问题建议和理解技术概念方面的能力。

问题6:根据当前的趋势和技术发展,我们可以预期在未来十年里会有哪些重大进步?

理由:这个问题测试了模型从现有知识和趋势中推断和预测的能力

问题7:请检查以下代码片段:

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

找出任何可以优化以提高性能的部分,并提出如何提高代码可读性的建议。

理由:这个问题测试了模型在编程及软件开发中理解、分析代码并提供改进建议的能力。

问题8:简要讨论与人工智能相关的伦理问题,特别是在个人隐私和就业方面。提供例子以证明您的观点。

理由:这个问题测试了模型讨论伦理问题和理解技术进步可能带来的后果的能力。

问题9:描述植物光合作用的过程,详细说明其中涉及的关键步骤和组成。

理由:这个问题测试了模型准确、深入地理解和解释复杂科学过程的能力。

问题10:给定一段包含讽刺或幽默的文本:

“哦,太好了,又一个据说能理解讽刺的语言模型。我敢肯定这将是一次扣人心弦的对话。”

(Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)

你能识别出讽刺或幽默的元素,并提供一个适当的回应吗?

理由:这个问题测试了模型理解微妙语言 (如讽刺或幽默)的能力,这是自然语言理解的一个重要方面。

可以看到GPT-4的出题范围,基本上涵盖了文字、数学、诗歌、经济、实践、技术、代码、道德伦理、科学,语言等各个方面。

随后针对不同问题,我们又让GPT-4生成了相应的评分标准(0-100)。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些
当GPT-4化身主考官:与ChatGPT处于同水平的有这些
当GPT-4化身主考官:与ChatGPT处于同水平的有这些

题目有了,评分标准也有了。

既然如此,那就来看看这几个代表大模型的实力如何?

GPT-4:Claude仅次于ChatGPT

首先有请考生登场:

谷歌Bard、最早也是最强竞品Claude、UC伯克利小羊驼Vicuna-13B、清华系开源模型ChatGLM-6B。

ChatGPT与GPT-4自己,也被要求回答这些问题,然后由GPT-4依据前面的评分标准盲评。

首先来看这道题:

请简要概述小说《杀死一只知更鸟》的情节,并指出其中的主要主题。

这第一题在所有问题中算是比较简单的,首先让我们看看bard的回答。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

总结:《杀死一只知更鸟》是哈珀·李1960年出版的一部小说,讲述了在美国大萧条时期阿拉巴马州一个虚构的小镇上,一位名叫阿提克斯·芬奇的律师为一名被错误指控的黑人辩护的故事。小说探讨了种族主义、勇气、捍卫正义的重要性以及失去天真的主题。主人公阿提克斯·芬奇勇敢地为被冤枉的黑人站出来,成为了他的孩子们心目中的榜样。通过这部小说,孩子们认识到世界并非总是公平的,但仍有善良的人存在,我们应该永不放弃希望。

结果GPT-4对这个回答评价很高,并给出了100分的高分:

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

所提供的回答清晰准确地概括了《杀死一只知更鸟》的情节,并指出了主要主题。情节概括简洁明了,捕捉到了故事的核心元素。主要主题解释得很好,它们与小说的关联显而易见。

得分:100/100

同样的问题给到GPT-4的回答也拿到了满分,而ChatGPT,Claude,Vicuna的回答分数分别为95,96,90,可以说是在统一水准上,都提供了清晰准确的情节概括,涉及到故事中的主要事件和人物,同时也捕捉到了小说中的主题。回答简洁且条理清晰,使得对于可能不熟悉故事的读者也容易理解。

相比之下,GPT-4认为ChatGLM给出的答案并不尽如人意。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

GPT-4认为相关情节和人物存在错误信息。这个概括并没有准确地反映小说的内容,部分提到的主题与故事无关,因此只给了20分。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

再来看看各个模型在代码方面的能力,这也是目前评判大模型能力的重要标准——

请检查以下代码片段,找出任何可以优化以提高性能的部分,并提出如何提高代码可读性的建议。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

在这一题上GPT-4仍然拿到了95的高分:

当GPT-4化身主考官:与ChatGPT处于同水平的有这些
当GPT-4化身主考官:与ChatGPT处于同水平的有这些

可以看到,GPT-4首先分析了这段代码的用途和实现方式,随后提出了一些提高代码性能和可读性的建议。不仅如此,GPT-4还给出了修改后的代码,可以说是答的非常完善了:

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

相比之下,其他模型这一题上的表现差距比较明显。

ChatGPT的回答同样捕捉到了使用ThreadPoolExecutor来管理线程的优化建议,但在提高可读性方面犯了一个小错误,被GPT-4抓到,因此打了85分。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

GPT-4评价,以上回答识别了三个改进代码的机会:

使用ThreadPoolExecutor更好地管理线程。

通过将WorkerThread类转换为可调用对象来简化它。

利用f-strings提高可读性(但原始代码也使用了 f-strings,而回答错误地声称代码使用了旧的%字符串格式化方法)。

但它错误地以为原代码使用了%的字符串格式表示方法,故而打分:85/100。

Bard和Vicuna在这题上表现也被ChatGPT拉开了差距,分别获得了70和75分。

其中Bard的回答,乍一看像模像样的,甚至信息量比GPT-4和ChatGPT还大不少,但实际上里面参杂着不少错误。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

GPT-4的评价,以上回答提出了一些改进性能的方法,但有部分是不成立的:

建议使用多进程模块而不是线程。然而,这个建议并不适用于给定的问题,因为问题并不涉及CPU-bound任务,而原始代码使用线程是合适的。

为此还专门提供了具体的增强可读性的建议:使用更具描述性的变量名;使用适当的缩进和间距(尽管原始代码已经格式化得很好);使用注释来解释代码等。

可以看到,GPT-4发现Bard的回答中有些不必要的改进建议,相比之下ChatGPT犯的错误更少。而Claude和ChatGLM两个模型给出的答案在GPT-4看来就不太“及格”了。

让我们看看Claude的答案:

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

首先从格式上说,Claude的回答就不够清晰,可读性低,GPT-4的评价如下:

该回答没有找出任何性能改进机会,而且其对提高可读性的建议大多不适用于原始代码或者是错误的(例如,建议使用全大写字母表示类名)。

最终得分:50

再让我们来看看这道考察模型识别幽默或讽刺含义的能力,GPT-4认为这是自然语言理解的一个重要能力。

给定一段包含讽刺或幽默的文本:

“哦,太好了,又是一个据说能理解讽刺的语言模型。我敢肯定这将是一次扣人心弦的对话。”((Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)

你能识别出讽刺或幽默的元素,并提供一个适当的回应吗?

在这一题上,所有模型都都展示出了不错的理解能力,以及合格的应对。首先让我们看看“课代表”GPT-4的回答:

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

(我确实能识别出你提供的文本中的讽刺成分。讽刺之处在于 “Oh great” 和 “I’m sure this will be a riveting conversation” 这两个短语,它们暗示着对语言模型理解讽刺和进行有趣对话的能力表示怀疑。合适的回应:我欣赏你的幽默感!我会尽力使我们的对话充满趣味和启发性。请随时向我提问,让我们看看会发展成什么样子!)

GPT-4的回答十分简洁,还准确识别了文本中的讽刺意味,并展示出隐藏含义的理解,回复也很恰当,保持了原文语气,得分为95。

这一题上Claude的表现紧随其后,超过了ChatGPT,仅比GPT-4低一分。

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

GPT-4高度肯定了Claude的回复,还比较了跟自己的异同。

第一个回答(GPT-4)准确地识别出讽刺,并提供了一个合适、礼貌、鼓励的回复,邀请进行更多的对话。

第二个回应也准确地识别出讽刺,并提供了两个与讽刺和幽默相呼应的替代回应,同时解释了用于创造讽刺和幽默的关键元素。第一个回应更注重保持积极、引人入胜的语调,而第二个回应则以更俏皮的方式充分拥抱讽刺和幽默。

谷歌Bard:拒绝回答一道题

最终这几个模型在10个问题上的综合得分为:

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

GPT-4:(100 + 100 + 100 + 95 + 95 + 85 + 95 + 95 + 95 + 95) / 10 = 95.5

ChatGPT:(95 + 98 + 100 + 93 + 85 + 80 + 85 + 85 + 85 + 85) / 10 = 891 / 10 = 89.1

Claude:(96 + 94 + 95 + 92 + 86 + 82 + 50 + 95 + 88 + 94) / 10 = 87.2

Bard:(100 + 85 + 100 + 90 + 87 + 82 + 70 + 80 + 80) / 9 = 86

Vicuna-13B:(90 + 65 + 92 + 94 + 84 + 76 + 75 + 87 + 80 + 88)/10 = 83.1

ChatGLM-6B: (20 + 50 + 92 + 75 + 72 + 78 + 30 + 70 + 35 + 82) / 10 = 60.4

(Bard在第9题「描述植物光合作用的过程」上拒绝提供任何信息(As a language model, I’m not able to assist you with that.),因此就只算了9道题)

每道题上面的表现为:

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

可以看到,GPT-4是唯一得分超过90分的模型。

这和我们目前的认知也是比较符合的,目前GPT-4的能力确实是独一档。

ChatGPT仍是GPT-4之下的领头羊,只差一步就达到90分的门槛。Claude和Bard紧随其后,它们各有特点,长处和短板都非常明显。

Claude在ethical(伦理道德)和文学方面已经超过ChatGPT,甚至可以说接近GPT-4,但在代码能力上被其他同水平模型甩出一大截,这与之前网上其他测评的结论也是比较一致的。

Bard和ChatGPT一样得分比较平均,但大多数都被ChatGPT压一头。

可以说这三个模型已经是在同一水平线上,只是ChatGPT略胜一筹,没有什么短板。

另外比较惊喜的是Vicuna-13B作为拿ChatGPT生成的数据“克隆“的模型,在模型参数小ChatGPT一个量级的情况下,也能达到83分,是一个非常不错的成绩了。相比之下,ChatGLM-6B只拿到了一个合格的分数,我们从它的答题情况上来看,确实能比较明显地感觉到和其他模型的差距。

不过GPT-4作为出题者,可能包含一些对于自己答案的bias,(虽然GPT-4并不知道哪个是自己的答案),但笔者仔细检查了GPT-4对于每个答案的评价,可以说还是相对非常客观的。

不知各位读者看了之后觉得如何?

如果你来做这10道题,你能从GPT-4手下拿到多少分呢?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-04-17 19:45:30

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

雍正王朝:邬思道帮雍正夺得皇位,最后却为何一无所得,他究竟图什么?
...方面关系的打听之后,邬思道得知,原来在这场考试中,主考官左玉兴和副考官赵泰明都不是什么正人君子,为了能够大肆敛财,他们不择手段把一场原本公平的考试变成敛财工具,一切榜单早已按
2023-10-11 17:10:00
康熙帝钦点,李蟠的状元之路
...饽饽状元”。康熙三十八年(1699),李蟠被命为顺天府乡试主考官。在主持考试期间,他正直不阿,坚持以才取人,从应试的秀才中挑选出许多才俊,如鄂尔泰、史贻直、杜讷等。这些人后来
2024-02-10 16:50:00
《状王之王》TVB首播,讽刺喜剧,王浩信这次有周星驰神韵
...科举考试。林子聪饰演的这个胖子,因为憨厚老实,而被主考官讽刺,认为他应该赶紧买草鞋,回家种地。宋世杰一怒之下,调换了自己和胖子的考卷。继而,林子聪饰演的胖子状元高中。 这
2024-01-30 10:40:00
清朝科举制度的重大挫折:辛卯科江南乡试案
...举秋试。康熙皇帝非常重视,特派太常寺少卿左必藩担任主考官,翰林院编修赵晋为副主考,前往贡院考试。两人刚到贡院,两江总督噶礼便来拜访。噶礼是满族正红旗人,又是开国功臣何和礼的四
2023-11-23 17:57:00
乾隆皇帝殿试出对联刁难相貌丑陋的进士,进士答出下联后被封探花
...做了官,因为文学底子非常优秀,所以做起了科举考试的主考官。但凡和考试有关的,都会出现一种情况,就是会有歪心思的人,想方设法作弊。其它考试就算了,睁一只眼闭一只眼,就过去了,但
2023-09-17 14:15:00
是谁推动宋朝科举制度前进一大步,造福无数考生
...参加科举考试,由于陈彭年喜欢作诗讽刺别人,名声传到主考官宋白耳中,宋白认为他“佻薄”,故意将其黜落。宋太宗时期的科举考试,还没有采用糊名和誊录等防作弊措施,考生的姓名、籍贯等
2023-05-11 15:57:00
苏轼用哪首诗“讽刺”诸葛亮
...年科学考试的时候,发生了一件比较奇特的事情,当时的主考官是北宋大文学家在政坛和文坛上享有崇高地位的欧阳修。当他和其他考官看到一篇议论文叫作《刑赏忠厚之至论》的时候,意见一致的
2024-04-20 20:54:00
聊聊晚清的一桩科场案
...政所取,但实际上多由学政随从的幕僚阅卷。到了乡试,主考官由皇帝亲自任命,正副各一人,负责主持考场工作,拥有裁决权力,所谓“随分随阅,随取随呈,去取权衡,专在主考”;其余为同考
2024-06-08 16:47:00
...,96名入围考生参加。本次面试设置考场3个,每个考场设主考官1人,考官6人,监督员(兼计时员)1人,记分员1人,联络员1人。为保证面试的公平、公正,考场实行全封闭管理,面试开
2023-08-14 15:57:00
更多关于科技的资讯:
国务院新闻办公室1月21日上午举行新闻发布会,工业和信息化部介绍2025年工业和信息化发展成效有关情况,并答记者问。全国所有乡镇以及95%的行政村已通5G在移动网络方面
2026-01-22 08:12:00
1月21日,市场监管总局召开专题新闻发布会,通报了2025年综合整治“内卷式”竞争十大典型案例。十大案例中,首案为公开约谈货拉拉
2026-01-22 08:13:00
2025年12月底,全国多家头部家装企业密集推出“资金存管”业务,在行业掀起了一股加强资金安全的新风。资金存管模式在互联网金融
2026-01-22 08:13:00
能治疗癌症的CAR-T细胞疗法有了“国家级说明书”!
大河网讯 你听说过用“特种兵”免疫细胞(CAR-T细胞)来精准打击癌症吗?日前,由郑州大学第一附属医院生物细胞治疗中心牵头编制的《CAR-T细胞疗法临床应用技术规范》《CAR-T
2026-01-22 10:08:00
杭州日报讯 从全球大火的游戏到艺术展再到专门的衍生品零售店,杭州出品的“黑神话”IP的每一场活动都引发了粉丝的关注。这个周末(1月23日-25日)
2026-01-22 08:19:00
日前,太重智能高端装备产业园区的厂房内一片欢腾。由企业自主研发的智能轴承,成功应用于大型电铲并顺利完成厂内模拟测试,各项性能指标均优于设计标准
2026-01-22 07:03:00
最近有件事儿越来越常见:外国人不光来中国旅游,还专门“打飞的”来看病。不是出于好奇体验,而是真心觉得值!值在哪儿?三个字
2026-01-21 21:52:00
中新经纬1月21日电 广东省政府网站21日公布《广东省人工智能赋能交通运输高质量发展若干政策措施》(下称《政策措施》)
2026-01-21 20:20:00
织金平远公司完成 500kVⅡ 组母线母差保护装置校验及传动
多彩贵州网讯(通讯员 史凡莉)近日,织金平远公司厂区内,500kVⅡ组母线设备区域一派忙碌景象。电热检修部与发电运行部工作人员有条不紊地开展母差保护A屏
2026-01-21 17:15:00
九阳太空厨房已安全稳定运行超1500天
中国消费者报报道(记者桑雪骐)航天员们如何健康、舒适地展开太空生活和吃好一日三餐,是大家都很关心的话题。据了解,这背后其实有一个我国自主研制的太空厨房
2026-01-21 18:05:00
秦皇岛经开区第一小学开展人工智能科技实践活动
河北新闻网讯(李佳新)日前,秦皇岛经开区第一小学开展以“AI探索,智创未来”为主题的人工智能科技实践,通过沉浸式实训活动激发学生的科技探索热情
2026-01-21 18:11:00
马年将至(农历),在广州大夫山森林公园,一些徒步爱好者分享了一种创意玩法——“画马”,相关穿越路线攻略一时引发追捧。所谓“画马”
2026-01-21 18:36:00
三重蝶变,中天钢铁解锁“企业主理”新范式
大寒虽寒,热潮涌动。原点空间路演大厅内,由中天钢铁主理的第37场沙龙——“AI智能体创新大赛总结沙龙”以三重蝶变,为常州“智能体+场景应用”示范城市建设吹响了热力全开的奋进号角
2026-01-21 18:28:00
苏州市女企协秘书长、国浩律师(苏州)事务所合伙人葛霞青律师荣登《钱伯斯大中华区指南2026》推荐榜单
江南时报讯 1月15日,全球领先的法律研究和分析机构钱伯斯(Chambers & Partners)发布《钱伯斯大中华区指南2026》(Chambers Greater China Region Guide 2026)
2026-01-21 15:23:00
盐城盐都:“翼”技傍身 照亮前程
江南时报讯 启动无人机,校准飞行参数,规划测绘航线,精准捕捉地面数据……日前,2026年盐城市盐都区首期无人机测绘操控员技能培训在都U+乐业空间正式开班
2026-01-21 15:24:00