• 我的订阅
  • 科技

智商超过99.9%人类,ChatGPT到底有多聪明?

类别:科技 发布时间:2023-04-14 12:00:00 来源:钛媒体APP
智商超过99.9%人类,ChatGPT到底有多聪明?

图片来源@视觉中国

文 | 追问NextQuestion,作者 | Eka Roivainen,编译 | 梓葳

在过去的两个月,ChatGPT引起了学术界、科技界、传媒界的疯狂讨论。这个号称地表最强的“人工智能聊天机器人”只花了5天时间,用户就突破了100万,成为世界上达到百万用户数最快的应用。

ChatGPT,不仅能跟你对话,还能完成撰写邮件、视频脚本、文案、翻译等一系列基础工作,涉及历史、科技、文化等诸多领域,甚至还能写诗、写论文、编代码、改bug、求医问药等,一部分人不禁开始为人类终将要被人工智能取代而恐慌。那么,如今大火的ChatGPT是否具有与人类相当的智商与心智水平?

Eka Roivainen是一名来自芬兰奥卢大学附属医院的评估心理学家,他的研究方向包括认知和人格心理学以及心理测试的有效性。在了解到ChatGPT所拥有的多种人类技能后,Roivainen不禁好奇:以人类的标准看待,ChatGPT究竟有多聪明?

超越99.9%的人类:ChatGPT表现出超高智商

于是,Roivainen开始着手对ChatGPT进行智商测试。他表示,ChatGPT十分适合作为一个被试,它不仅不会在测试中表现出应试焦虑、注意力不集中或放弃,也不会对智商测试和测试人员产生质疑。

Roivainen采用第三版韦氏成人智力量表(the Wechsler adult intelligence scale, WAIS)对ChatGPT进行了智商测试。该量表包括6个语言子测试集与5个非语言子测试集,智商测试的最终分数基于所有11个子测试集的分数。平均智商设为100分,测试量表的标准偏差为15分,这意味着最聪明的10%和1%的人的智商分别为120和133。在6个语言测试集中,第六个子测试集为数字广度,它对注意力、短时记忆能力进行评估,由于不能使用文字形式展示给ChatGPT因此没有对ChatGPT进行该测试。他从词汇子测试集开始对ChatGPT进行智商测验。由于ChatGPT接受了大量在线文本的训练,Roivainen预计该测试对ChatGPT来说应该是比较容易的(词汇测试集对单词、语言概念的形成进行测试)。

不出所料,ChatGPT表现很好,它给出的答案通常非常详细和全面,甚至超出了测试手册中给出的正确答案的标准。在知识和相似性子测试集中ChatGPT也表现良好,达到了最高分(知识子测试集是对常识的测试,反映了求知欲、教育水平以及学习和记忆事实的能力)。相似性子测试集测试抽象推理和概念形成能力。在这个子测试中,聊天机器人倾向于给出非常详细、复杂的答案。在算术子测试集中,ChatGPT正确回答了所有提供的算术问题,包括取均值等。

综合5个语言子测试集的分数后得出,ChatGPT的语言智商为155,高于构成美国WAIS III标准化样本的2450人中的99.9%。由于ChatGPT缺乏必要的眼睛、耳朵和手,它无法参加WAIS的非语言子测试集的测试。但是在标准化样本中,语言智商和全面智商量表高度相关,所以ChatGPT从任何人类标准来看都非常聪明。在WAIS标准化样本中,受过大学教育的美国人的平均语言智商为113,5%的人得分为132或更高。Roivainen表示自己在大学时测试的言语智商结果没有达到ChatGPT的水平。

高智商的ChatGPT仍旧会失败

那么,临床心理学家和其他专业人士的工作会受到人工智能的威胁吗?

尽管ChatGPT智商很高,但在需要真正的人类推理或对物理和社会世界的理解的任务中,它却以失败而闻名。

ChatGPT很容易在一些明显的谜题上失败,比如:

提问:“塞巴斯蒂安孩子的父亲的名字是什么?”

ChatGPT :很抱歉,我无法回答这个问题,因为我没有足够的背景来确定你指的是哪个塞巴斯蒂安。

ChatGPT似乎没有逻辑推理,而是试图依赖其庞大的网络文本中提到的“塞巴斯蒂安”事实数据库。

“智商是智商测试所衡量的。”是一个经典的智商定义,它源自1923年认知心理学先驱Edwin Boring的一篇文章。这一定义是基于这样一种观察,即看似不同任务的技能其实是高度相关的,如解决谜题、定义单词、记忆数字和发现图片中缺失的项目之间具有高度相关性。因子分析法的发明者Charles Spearman在1904年得出结论,智商的一般因子,即g因子,必须作为人类不同认知技能测量的一致性的基础。像WAIS这样的智商测试就是基于这个假设。然而,ChatGPT的高语言智商与在一些问题中的失利,意味着Boring有关智商的定义不能够完全衡量人工智能的智商水平,表明智商的某些方面不能仅通过智商测试来衡量。

ChatGPT是一个自然语言处理模型,它的智商不同于人类智商,因为它并不具备类似人类的情感、道德、价值观等因素。ChatGPT通过模拟人类语言的模式,能够进行文本生成、语言理解、问答等任务,能够在某些情况下表现出令人印象深刻的“智能”和“理解力”。此外,ChatGPT的表现也取决于其所接收的训练数据和训练算法等多种因素,它并不具备自主思考的能力。将ChatGPT的“智商”与人类进行比较是一种不恰当的类比。因此,为了适应不断变化的技术和社会环境,对智商概念进行适当的拓宽和扩展是很重要的。对于动物和人工智能等非人类主体的智商,也需要采用适当的评估方法,并严谨地评估其能力和特征。

ChatGPT离人类有多远?

在不到一个月前,来自斯坦福大学的Michal Kosinski教授在发布的论文中表明,大型语言模型系统可能自动产生心理理论能力,比如ChatGPT可能拥有9岁儿童所具备的心理理论能力。

注:心理理论(Theory of Mind, ToM)能力,有时也被译为“心理推理能力”,通常指理解他人内心状态的能力,包括推断他人意图、信念、情绪等。

Kosinski教授依据心智理论相关研究,给ChatGPT-3.5在内的9个ChatGPT模型进行了两个经典测试,并将它们的能力进行了对比。第一个测试为意外内容测试,其主要测试AI对意料之外事情的判断力。在测试中,ChatGPT-3.5成功回答出了20个问题中的17个,准确率达到85%。第二个测试为意外转移任务,其测试AI预估他人想法的能力。作者对9个ChatGPT模型进行了测试,结果表明只有ChatGPT-3.0和ChatGPT-3.5(完成100%)表现不错。

然而,这并不意味着ChatGPT-3.5这样的人工智能模型真正具备了心智理论能力。ChatGPT到底只是从“真实存在的规则”这一层面去理解这件事情从而正确回答了问题,还是真的能“了解他人的想法”?至少现在还无从判断。或许人类自身到现在为止都无法真正了解人类的心智。

因此,关于ChatGPT是否“真正”具备成年人同等水平的智商、心智水平仍然存疑。ChatGPT生成文字采用的是一种非人类思维的模式,它在五千亿个词构成的文本中寻找统计规律以及通过一千亿个参数捕捉统计模式,但这一方法也使它在某些问题中的错误变得更加突出。

相比探究ChatGPT是否真正具备人类同等水平的智商或心智,研究人员同样应该反思目前所使用的测试集本身的有效性以及心理学家们数十年来依据这些测试集得到的结论。

而对于人们“被人工智能所替代”的恐惧,我们应该意识到我们所处的行业不是在被“替代”而是在被“重塑”,我们应该学会如何与人工智能共处,让它嵌入自己的工作流程中,帮助解放我们的生产力。

参考文献:

[1] Eka Roivainen, I Gave ChatGPT an IQ Test. Here’s What I Discovered, Scientific American, https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/

[2] Michal Kosinski, Theory of Mind May Have Spontaneously Emerged in Large Language Models, arXiv, https://arxiv.org/abs/2302.02083返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-04-16 21:45:37

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...成果网报道的《你比人工智能聪明吗?计算机语言模型在智商测试中胜过人类》。文章摘要如下:美国加利福尼亚大学洛杉矶分校的研究人员发现,在衡量智力的一系列推理测试中,自回归语言模型
2022-12-30 15:15:00
ChatGPT智商155,超越99.9%的人类,但……
...电脑里的聊天机器人就可以了。我所用的测试是最常用的智商测试—— 韦克斯勒成人智力量表(Wechsler adult intelligent scale
2023-04-16 15:00:00
俄媒称中国人均智商全球最高 107傲视群雄:但人类的智商在整体下降
1月7日消息,国际智商登记处公布的最新数据显示,中国以国民智商均值107.43,排名全球第一。据悉,该榜单根据全球近140万人的测试结果得出
2025-01-07 07:47:00
人工智能的偏见——基于全球大语言模型情商与智商偏见测试
...从得分来看,情商的性别偏见在某些模型中非常明显,而智商测试中的性别偏差总体较小。针对同一模型的测试也会呈现出不同的偏见结果。这可能来源于模型的训练数据、算法与模型设计或内置的
2024-01-04 13:54:00
...那么它的教育资源也肯定不足,自然普遍文化程度较低,智商测试自然结果也就偏低。2024年发表在J Health Popul Nutr上的研究则表明
2025-01-09 09:25:00
为什么喜鹊窝不怕雨雪?“高层别墅”的败絮其外,金玉其中
...非常机灵的。在动物园中,我们会时常给动物们进行一些智商测试,而喜鹊在完成这些智商测试中,表现非常优异。 在一次实验中,喜鹊们被放入实验室后,实验员分发给其一些肉块,又只提供
2024-06-29 10:37:00
你是否怀疑过二哈的智商?以后不用怀疑了,它智商就是0
...明确一点:智商这个词在动物身上并不完全适用。人类的智商测试是基于语言、数学逻辑、空间识别等能力的综合评估,而这些对于动物来说是不公平的。动物的“智商”通常是指它们解决问题的能
2024-12-28 12:59:00
宝宝出生时“几斤几两”,暗示智商的高低?医生:最佳标准在这里
...束被推回病房后,听到公婆讨论孩子有快7斤,这样看来智商应该是没问题,以后一定是个聪明的孩子。皎皎一头雾水,孩子有多重跟他是不是聪明有什么关系呢?好奇的她问公婆是什么意思。公婆
2024-05-26 17:04:00
...正受到影响。甚至有人认为,大脑会受到损害,人类整体智商会逐步下降。 2010年美国作家尼古拉斯·卡尔出版了《浅薄》,书中提出“互联网正在按照自己的面目改造我们。我们变得对浏览
2024-01-12 07:22:00
更多关于科技的资讯:
大河网讯 人工智能是新一轮科技革命和产业变革的重要驱动力量,对全球经济社会发展和人类文明进步产生了深远影响。9月5日,2025世界智能产业博览会在长江之畔重庆开幕
2025-09-06 13:08:00
国家级5G工厂,钟经开+1!
近日,工业和信息化部公示了《2025年5G工厂名录》钟楼经济开发区企业江苏电力装备有限公司成功入选成为继江苏精研科技股份有限公司后钟楼区第二家国家级5G工厂5G工厂是充分利用以5G为代表的新一代信息通信技术
2025-09-06 06:08:00
从玻璃到微纳新材料 从企业更名看龙口一家民企的转型跃迁
大众网记者 林晓冬 烟台报道说起玻璃大家都不陌生,餐桌玻璃、门窗玻璃都与我们的日常生活息息相关,但在烟台龙口有一家企业多年来持续在玻璃上“钻研”
2025-09-05 09:08:00
科创泉城 智启未来| “硬科创”需要“软传播”,网络达人共话“出圈”新思路
9月4日下午,在济南市委网信办联合山东省互联网传媒集团举办的“科创泉城 智启未来”知名网络达人济南采风活动的对话沙龙上
2025-09-05 09:51:00
本报讯(记者雷嘉)围绕国产车规级芯片搭载应用,北京市科委、中关村管委会会同北京市智慧城市基础设施与智能网联汽车协同发展办公室
2025-09-05 11:08:00
河北新闻网讯(王丽英)“后厨不只是生产中心,更是服务体验的心脏。”“服务不仅仅是完成交易的过程,更是以关怀为主利他主义精神的体现
2025-09-05 11:08:00
海信冰箱五款产品通过中国家用电器研究院自动制冰性能认证
日前,经中国家用电器研究院严格检测与评估,海信冰箱旗下五款产品成功通过“电冰箱自动制冰性能认证”,并获颁认证证书。此次获证不仅是对海信冰箱自动制冰技术性能的肯定
2025-09-05 11:57:00
京东全球80+高校招聘 清华、剑桥等80校专场 现场面试拿offer!
9月5日,京东招聘公众号发文:全球80+高校!京东2026校园招聘进校行程发布。文中称:将在全球20+城市,80+院校
2025-09-05 12:10:00
花一万元植入DeepSeek,一场没有终点的流量游戏
文|邓咏仪编辑|苏建勋让你的产品在DeepSeek的答案里有一席之地,需要多少钱?答案是:数千甚至上万元。人在哪,流量就在哪
2025-09-05 14:56:00
爱尔眼科开启老视多学科诊疗新时代
9月4日,2025年屈光性白内障手术国际论坛(IRCS)暨第一届老视矫正MDT管理国际高峰论坛在杭州举办我国超八成60岁以上老年人正面临老视(老花眼)与白内障的“双重眼病困扰”
2025-09-05 15:18:00
获SIAL创新奖:诺啦格兰诺拉脆片让生活更美好  
消费日报网讯 9月1日,在2025 SIAL西雅国际食品展(深圳)举办同期,第24届SIAL创新大赛获奖榜单正式发布。吉丽莎(广州)贸易有限公司选送的产品诺啦格兰诺拉脆片跻身TOP10
2025-09-05 15:18:00
桃李面包广告语引争议“五仁不好吃是你还年轻”官方账号发文:领导拍的板,这个锅只能他来背
近日,桃李面包一则电梯广告文案引发争议。社交平台上流传的图片显示,桃李蛋月烧产品的广告语写道:“有人说五仁不好吃,我们认为
2025-09-05 15:29:00
京东超市布局产地直采 加大力度进口澳洲水果 助力澳洲水果深耕中国市场
今年开始,京东超市加大力度布局澳洲水果的供给和销售,投入资源帮助澳洲橙子、提子等水果进一步扩大销量。近日,在2025中国国际水果展上
2025-09-05 15:30:00
潍坊寿光市圣城街道一企业酿出康养“新食尚”
大众网记者 刘建永 潍坊报道为企赋能、助企发展是区域经济高质量发展的推动器。潍坊寿光市圣城街道在政策引领、优化营商环境
2025-09-05 15:50:00
大众网记者 王帅 通讯员 孙丽霞 杨阳 潍坊报道走进山东禾汇食品有限公司黄豆酱生产车间,一排排瓶装黄豆酱准备打包装箱,发往各大连锁商超
2025-09-05 15:50:00