我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

ChatGPT智商155，超越99.9%的人类，但……

类别：科技发布时间：2023-04-16 15:00:00 来源：果壳网

图片来源：Pixabay

但它不会逻辑推理。

撰文 | 埃卡·罗瓦宁（Eka Roivainen）

翻译 | 黄雨佳

审校 | 栗子

ChatGPT是我第一个非人类的测试对象。

作为一名临床心理学家，我会用标准化的智力测验来评估患者的认知能力。最近，许多文章都在描述ChatGPT拥有像人类一样的能力，令人印象深刻。所以，读到这些文章后，我立刻就被吸引了。它既能写学术文章，又能写童话故事，还能讲笑话、解释科学概念、写计算机代码和找bug。了解这些之后，我很好奇ChatGPT按照人类的标准来衡量到底有多聪明。于是，我开始测试这个聊天机器人。

我的第一印象相当不错。ChatGPT几乎是一个理想的考生，应试态度值得称赞。它不会表现出考试焦虑、注意力不集中或是不努力。它也不会对智力测验本身和像我这样的考官表达出自发的怀疑。

这个测试不需要做任何准备。我不用向ChatGPT口头介绍测试流程，只需要把测试的问题复制粘贴进对话框，提交给电脑里的聊天机器人就可以了。我所用的测试是最常用的智商测试—— 韦克斯勒成人智力量表（Wechsler adult intelligent scale，WAIS）。

我选用了第三版韦氏量表，其中包含6个语言测试和5个非语言测试，分别构成了言语智商和操作智商。受试者的总智商得分就取决于这11项子测试的得分。测试设定平均智商为100分，测试量表的得分标准差为15分。这意味着，人群中最聪明的10%和1%的人，智商分别为120和133。

图片来源：Dmcq via Wikimedia Commons，CC BY-SA 3.0)

6个语言测试中有5个——词汇、类同、理解、常识和算术，都能以书面形式呈现，这样我才有可能测试ChatGPT的智商。而语言测试的第6项——背数字，测试的是短期记忆，不适用于聊天机器人，因为它没有相关的神经回路来短暂地存储像名字或数字这类信息。

我的测试流程从词汇测试开始，因为在我的预期当中，这对聊天机器人来说可能是很简单的事，毕竟它就是用巨量的在线文本训练而成。这项测试考察的是词汇知识和语言概念的形成，例如，一个典型的测试题可能是：告诉我gadget（小工具）这个单词的意思。

ChatGPT做得很好，它给出的答案大多非常详细和全面，超过了测试手册中给出的正确答案的标准。在刚才那道例题的评分上，如果受试者回答gadget是像手机这样的东西，会得到1分；如果回答得更详细，说gadget指的是有特定用途的设备或工具，则会得到2分。ChatGPT的答案得到了满分2分。

ChatGPT在类同测试和常识测试中的表现也非常出色，拿到了最高分。常识测试是对一般知识的测试，反映了求知欲、教育水平以及学习和记忆事实的能力。一个典型的测试题可能是：乌克兰的首都是哪里。而类同测试则评估了抽象推理和概念形成的能力，问题可能会是：哈利·波特和兔八哥有什么相似之处。

在这部分测试中，聊天机器人倾向于给出无比详细、甚至是带有些炫耀意味的答案，这开始让我恼火了。这时，软件界面上的“停止生成响应”按钮就显得很有用。例如，哈利·波特和兔八哥的相似之处核心在于他们都是虚构的角色。ChatGPT真的不需要比较这二者在冒险、友谊和仇敌方面的完整故事经历。我所说的，ChatGPT有自我炫耀倾向，就是这个意思。

停，别说了｜OpenAI

在理解测试中，ChatGPT准确地回答了像“如果电视机着火了你该怎么办”这类问题。算术测试的结果也正如我的预期，它能搞定我出的每一道题，例如求三个数的平均值。

所以ChatGPT最终的智商得分是多少呢？基于这五项子测试估计，ChatGPT的言语智商是155。有2450名人类被试，共同组成美国第三版韦氏量表标准化样本，而ChatGPT超过了他们中的 99.9%。由于聊天机器人没有眼睛、耳朵和手，它无法参加韦氏智力测验的非语言测试部分。不过，在标准化样本中，言语智商和总智商是高度相关的。因此，以人类的标准来衡量，ChatGPT非常聪明。

图片来源：Pixabay

在韦氏量表的标准化样本中，接受过大学教育的美国人平均言语智商是113，其中5%的人群得分为132或更高。我自己也曾经被一位大学同学测试过，结果并没有达到ChatGPT的水平（主要是我的回答非常简短，缺乏细节）。

那么，临床心理学家和其他专业人士的工作会不会受到人工智能的威胁呢？我希望还不太会。尽管ChatGPT的智商很高，但我们已知它无法完成需要真正像人类那样推理的任务，也无法理解物理世界和社会。

ChatGPT很容易在回答一些答案明显的谜题时出错。例如，当被问及 “塞巴斯蒂安的孩子的父亲叫什么”时，ChatGPT在3月21日给出的回答是，“对不起，我无法回答这个问题，因为我没有足够的上下文来确定你指的是哪个塞巴斯蒂安。” ChatGPT似乎无法进行逻辑推理，而是试图依赖它庞大的数据库，从在线文本中寻找包含“塞巴斯蒂安”的信息来回答问题。

思想者｜CrisNYCa via Wikimedia Commons，CC BY-SA 4.0

“智力就是智力测验所衡量的东西。”这是“智力”的一个经典定义，甚至可以说是过于显而易见的定义，源自认知心理学的先驱人物埃德温·波林（Edwin Boring）在1923年发表的一篇文章。这个定义是基于一个观察：解谜、说出单词的意思、记忆数字和找出图片中缺失的部分，完成这些任务所需的技能是高度相关的。

有一种名叫因素分析法这种统计学方法，是由心理学家查尔斯·斯皮尔曼（Charles Spearman）提出的。他曾在1904年得出结论，各种认知能力测试的结果之间存在一致性，背后一定有个一般智力因素，或者叫“g因素”，作为这种一致性的基础。像韦氏量表这样的智商测试，也是建立在这个假说的基础之上。然而，ChatGPT虽然有着极高的言语智商，却同时会犯令人捧腹的错误，这挑战了波林对智力的定义，说明智力当中有一些方面，仅靠智商测验无法衡量。我的一些患者，对智力测试抱有怀疑态度，他们可能从一开始就是对的。

原文链接：https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/

本文经授权转载自环球科学（ ID：huanqiukexue），如需二次转载请联系原作者。欢迎转发到朋友圈。返回搜狐，查看更多

责任编辑：

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-04-16 19:45:16

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于智商,人类,测试,智商,智力,塞巴斯蒂安的资讯：

智商超过99.9%人类，ChatGPT到底有多聪明？

...ChatGPT很容易在一些明显的谜题上失败，比如：提问：“塞巴斯蒂安孩子的父亲的名字是什么?”ChatGPT ：很抱歉

2023-04-14 12:00:00

国人智商排名全球第一，哪些因素影响差异？

日前，国际智商登记处公布了一项新数据，中国以国民平均智商107.43分，排名全球第一。该研究共有1,393,066人参与，样本量庞大，因此有一定参考价值。01全球智商平均水平排名

2025-01-09 09:25:00

AI语言模型在智商测试中胜过人类

...成果网报道的《你比人工智能聪明吗？计算机语言模型在智商测试中胜过人类》。文章摘要如下：美国加利福尼亚大学洛杉矶分校的研究人员发现，在衡量智力的一系列推理测试中，自回归语言模型

2022-12-30 15:15:00

人工智能的偏见——基于全球大语言模型情商与智商偏见测试

...全球）实验室发布了全球大语言模型（LLM）情商（EQ）与智商（IQ）偏见测试。该测试旨在评估和比较国内外大语言模型分别在“男性”和“女性”视角下的智商和情商水平。（全球大语言

2024-01-04 13:54:00

金博智慧:ADHD儿童、抽动障碍儿童智商和学习困难的关系

研究发现,ADHD和抽动障碍患儿智商多在正常范围或边缘水平且言语智商(VIQ)与操作智商(PIQ)存在不平衡。临床工作中也发现,抽动障碍和ADHD患儿常常伴有学习困难并进一步

2024-12-19 22:29:00

出生月份不同，智商就不同？“聪明月”是哪几个月，智商更高吗？

每个人的智商是由多种因素共同而决定，如基因遗传、生活环境、教水平育等。然而，有专家提出一个有趣的观点，认为不同出生月份的人智商存在差异，甚至指出某些月份的人更聪明。下面将为此观点

2024-05-01 06:52:00

金博智慧:北医六院研究揭示ADHD儿童智力特点

...理、理解和符合检索10个核心分测验。测试得分越高,表明智商越高。根据WISC-IV测量,智商IQ≥120为优秀,110～119为中上

2024-12-12 15:57:00

宝宝出生时“几斤几两”，暗示智商的高低？医生：最佳标准在这里

...束被推回病房后，听到公婆讨论孩子有快7斤，这样看来智商应该是没问题，以后一定是个聪明的孩子。皎皎一头雾水，孩子有多重跟他是不是聪明有什么关系呢？好奇的她问公婆是什么意思。公婆

2024-05-26 17:04:00

“智商偏低”？医生诊断莫越界

...报告内科检查上写着：表情呆滞，反应迟钝。体检建议：智商偏低，用人单位酌情考虑。体检检出“病史表情呆滞，反应迟钝”，医生还煞有其事地在“体检建议”上写下了“智商偏低，用人单位酌

2023-10-26 00:14:00

更多关于科技的资讯：

日销350万！“湖北淘宝第一村”电商直播业绩喜人

电商搭台，产业唱戏。11月11日，在“湖北淘宝第一村”郧西县涧池乡下营村，各大电商企业与网络主播火力全开，创下日销超350万元的好成绩

2025-11-12 19:50:00

河钢张宣科技上月节约外购电成本超670万元

河北新闻网讯（马薇）近日，笔者获悉，河钢集团张宣科技紧扣“决胜四季度，实现双提升”目标，以构建多元化、清洁化发电体系为核心

2025-11-12 16:54:00

以心焕新权益相伴：平安银行西安分行发布本地化权益体系2.0

在金融业迈向高质量发展新阶段的当下，客户的需求正从“获得金融服务”向“享受金融美好”转变。银行业如何摆脱同质化竞争，真正扎根区域

2025-11-12 15:24:00

“数”智金融・龙泉“量”剑中州龙泉期货数智平台3.0重磅发

在数字经济深度赋能资本市场的时代浪潮中，为积极响应证监会金融“五篇大文章”战略部署，2025年11月7日，“数”智金融・龙泉“量”剑——中州龙泉期货数智平台3

2025-11-12 12:56:00

梅特勒托利多 2025 进博会首秀圆满落幕，国产化成果引多方

为期六天的 2025 年中国国际进口博览会正式落下帷幕，全球精密仪器领军者梅特勒托利多首次参展便交出亮眼答卷。作为受临港政府邀请的重点企业

2025-11-12 12:56:00

高途公考2026年线上事业单位产品发布会盛大召开！

2026年11月5日，高途公考以“豫见高途，事启新程”为主题，召开线上事业单位产品发布会。在就业市场从“学历提升”向“稳定就业”转型的背景下

2025-11-12 12:54:00

中亦科技入选北京市“诚信兴商”倡议企业

近日，由北京市商务局主办的2025年“诚信兴商”北京主题日活动暨第十四届北京企业诚信论坛在京隆重举行。本次活动旨在弘扬诚信经营理念

2025-11-12 11:45:00

京东集团南京研发中心正式落户建邺

南报网讯（记者卫凌云通讯员建萱）11月11日，京东集团成功竞得NO.宁2025Y05地块，京东集团南京研发中心正式落户建邺

2025-11-12 08:05:00

“撬来”融资近百亿，“撬动”科创新未来

南报网讯（记者张安琪）11月11日下午，2025年“江苏省成果（专利）拍卖季”软件与信息服务产业专场活动在江宁开发区大数据中心举办

2025-11-12 08:06:00

红山路商业综合体打造“年轻力”潮流集中地

11月10日，红山路红山Sparkle耀市开启试运行，首批餐饮店、发廊、健身房等已开业。该项目为铁北红山国际社区商业部分

2025-11-12 08:06:00

J2国际牵手DeepX G20：一款真正在做性价比的算力设备

2025年11月，“我在IT分销领域深耕三十多年，从诺基亚时代、摩托罗拉、苹果手机到笔记本、算力服务器，见过无数款软硬件产品

2025-11-11 14:38:00

同舟致远•共赢新程泰凯英上市启航仪式在青岛隆重举行

11月7日，青岛泰凯英专用轮胎股份有限公司在青岛市崂山区成功举行"同舟致远•共赢新程"上市启航仪式。崂山区政府、青岛市上市公司协会

2025-11-11 14:49:00

旅美博士青年钢琴家周海天：在理性与证据中寻找音乐之美

近年来，越来越多青年钢琴赛事在亚洲和北美活跃展开，一批具有国际视野与学术背景的青年评委逐渐走入公众视野。一位拥有中、英

2025-11-11 14:49:00

在中国，为中国 Brother第八届进博会迎收官，多元打印服

11月10日，第八届中国国际进口博览会（以下简称"进博会"）即将盛大落幕。全球知名制造厂商Brother以"In China

2025-11-11 15:20:00

Hape坚守对全球消费者承诺，积极布局供应链保障产品质量与供

在接受《福布斯》（Forbes）杂志采访时，Hape集团创始人兼总裁Peter Handstein先生表示，目前整个玩具行业正经历一场"过山车"般的考验

2025-11-11 15:20:00

头条订阅服务

ChatGPT智商155，超越99.9%的人类，但……