• 我的订阅
  • 科技

ChatGPT智商155,超越99.9%的人类,但……

类别:科技 发布时间:2023-04-16 15:00:00 来源:果壳网
ChatGPT智商155,超越99.9%的人类,但……

图片来源:Pixabay

但它不会逻辑推理。

撰文 | 埃卡·罗瓦宁(Eka Roivainen)

翻译 | 黄雨佳

审校 | 栗子

ChatGPT是我第一个非人类的测试对象。

作为一名临床心理学家,我会用 标准化的智力测验来评估患者的认知能力。最近,许多文章都在描述ChatGPT拥有像人类一样的能力,令人印象深刻。所以,读到这些文章后,我立刻就被吸引了。它既能写学术文章,又能写童话故事,还能讲笑话、解释科学概念、写计算机代码和找bug。了解这些之后,我很好奇ChatGPT按照人类的标准来衡量到底有多聪明。于是,我开始测试这个聊天机器人。

我的第一印象相当不错。ChatGPT几乎是一个理想的考生,应试态度值得称赞。它不会表现出考试焦虑、注意力不集中或是不努力。它也不会对智力测验本身和像我这样的考官表达出自发的怀疑。

这个测试不需要做任何准备。我不用向ChatGPT口头介绍测试流程,只需要把测试的问题复制粘贴进对话框,提交给电脑里的聊天机器人就可以了。我所用的测试是最常用的智商测试—— 韦克斯勒成人智力量表(Wechsler adult intelligent scale,WAIS)。

我选用了第三版韦氏量表,其中包 含6个语言测试和5个非语言测试,分别构成了 言语智商和操作智商。受试者的总智商得分就取决于这11项子测试的得分。测试设定 平均智商为100分,测试量表的得分标准差为15分。这意味着, 人群中最聪明的10%和1%的人,智商分别为120和133。

ChatGPT智商155,超越99.9%的人类,但……

图片来源:Dmcq via Wikimedia Commons,CC BY-SA 3.0)

6个语言测试中有5个——词汇、类同、理解、常识和算术,都能以书面形式呈现,这样我才有可能测试ChatGPT的智商。而语言测试的第6项——背数字,测试的是短期记忆,不适用于聊天机器人,因为它没有相关的神经回路来短暂地存储像名字或数字这类信息。

我的测试流程从 词汇测试开始,因为在我的预期当中,这对聊天机器人来说可能是很简单的事,毕竟它就是用巨量的在线文本训练而成。这项测试考察的是词汇知识和语言概念的形成,例如,一个典型的测试题可能是: 告诉我gadget(小工具)这个单词的意思。

ChatGPT做得很好,它给出的答案大多非常详细和全面,超过了测试手册中给出的正确答案的标准。在刚才那道例题的评分上,如果受试者回答gadget是像手机这样的东西,会得到1分;如果回答得更详细,说gadget指的是有特定用途的设备或工具,则会得到2分。ChatGPT的答案得到了满分2分。

ChatGPT在类同测试和常识测试中的表现也非常出色,拿到了最高分。 常识测试是对一般知识的测试,反映了求知欲、教育水平以及学习和记忆事实的能力。一个典型的测试题可能是: 乌克兰的首都是哪里。而 类同测试则评估了抽象推理和概念形成的能力,问题可能会是: 哈利·波特和兔八哥有什么相似之处。

在这部分测试中,聊天机器人倾向于给出无比详细、甚至是带有些炫耀意味的答案,这开始让我恼火了。这时,软件界面上的“停止生成响应”按钮就显得很有用。例如,哈利·波特和兔八哥的相似之处核心在于他们都是虚构的角色。ChatGPT真的不需要比较这二者在冒险、友谊和仇敌方面的完整故事经历。我所说的,ChatGPT有自我炫耀倾向,就是这个意思。

停,别说了|OpenAI

在 理解测试中,ChatGPT准确地回答了像“如果电视机着火了你该怎么办”这类问题。 算术测试的结果也正如我的预期,它能搞定我出的每一道题,例如求三个数的平均值。

所以ChatGPT最终的智商得分是多少呢? 基于这五项子测试估计,ChatGPT的言语智商是155。有2450名人类被试,共同组成美国第三版韦氏量表标准化样本,而ChatGPT超过了他们中的 99.9%。由于聊天机器人没有眼睛、耳朵和手,它无法参加韦氏智力测验的非语言测试部分。不过, 在标准化样本中,言语智商和总智商是高度相关的。因此,以人类的标准来衡量,ChatGPT非常聪明。

ChatGPT智商155,超越99.9%的人类,但……

图片来源:Pixabay

在韦氏量表的标准化样本中,接受过大学教育的美国人平均言语智商是113,其中5%的人群得分为132或更高。我自己也曾经被一位大学同学测试过,结果并没有达到ChatGPT的水平(主要是我的回答非常简短,缺乏细节)。

那么,临床心理学家和其他专业人士的工作会不会受到人工智能的威胁呢?我希望还不太会。尽管ChatGPT的智商很高,但我们已知它无法完成需要真正像人类那样推理的任务,也无法理解物理世界和社会。

ChatGPT很容易在回答一些答案明显的谜题时出错。例如,当被问及 “塞巴斯蒂安的孩子的父亲叫什么”时,ChatGPT在3月21日给出的回答是,“对不起,我无法回答这个问题,因为我没有足够的上下文来确定你指的是哪个塞巴斯蒂安。” ChatGPT似乎无法进行逻辑推理,而是试图依赖它庞大的数据库,从在线文本中寻找包含“塞巴斯蒂安”的信息来回答问题。

ChatGPT智商155,超越99.9%的人类,但……

思想者|CrisNYCa via Wikimedia Commons,CC BY-SA 4.0

“智力就是智力测验所衡量的东西。”这是“智力”的一个经典定义,甚至可以说是过于显而易见的定义,源自认知心理学的先驱人物埃德温·波林(Edwin Boring)在1923年发表的一篇文章。这个定义是基于一个观察:解谜、说出单词的意思、记忆数字和找出图片中缺失的部分,完成这些任务所需的技能是高度相关的。

有一种名叫因素分析法这种统计学方法,是由心理学家查尔斯·斯皮尔曼(Charles Spearman)提出的。他曾在1904年得出结论,各种认知能力测试的结果之间存在一致性,背后一定有个 一般智力因素,或者叫“g因素”,作为这种一致性的基础。像韦氏量表这样的智商测试,也是建立在这个假说的基础之上。 然而,ChatGPT虽然有着极高的言语智商,却同时会犯令人捧腹的错误,这挑战了波林对智力的定义,说明智力当中有一些方面,仅靠智商测验无法衡量。我的一些患者,对智力测试抱有怀疑态度,他们可能从一开始就是对的。

原文链接:https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/

本文经授权转载自 环球科学( ID:huanqiukexue),如需二次转载请联系原作者。欢迎转发到朋友圈。 返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-04-16 19:45:16

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智商超过99.9%人类,ChatGPT到底有多聪明?
...ChatGPT很容易在一些明显的谜题上失败,比如:提问:“塞巴斯蒂安孩子的父亲的名字是什么?”ChatGPT :很抱歉
2023-04-14 12:00:00
日前,国际智商登记处公布了一项新数据,中国以国民平均智商107.43分,排名全球第一。该研究共有1,393,066人参与,样本量庞大,因此有一定参考价值。01全球智商平均水平排名
2025-01-09 09:25:00
...成果网报道的《你比人工智能聪明吗?计算机语言模型在智商测试中胜过人类》。文章摘要如下:美国加利福尼亚大学洛杉矶分校的研究人员发现,在衡量智力的一系列推理测试中,自回归语言模型
2022-12-30 15:15:00
人工智能的偏见——基于全球大语言模型情商与智商偏见测试
...全球)实验室发布了全球大语言模型(LLM)情商(EQ)与智商(IQ)偏见测试。该测试旨在评估和比较国内外大语言模型分别在“男性”和“女性”视角下的智商和情商水平。(全球大语言
2024-01-04 13:54:00
金博智慧:ADHD儿童、抽动障碍儿童智商和学习困难的关系
研究发现,ADHD和抽动障碍患儿智商多在正常范围或边缘水平‚且言语智商(VIQ)与操作智商(PIQ)存在不平衡。临床工作中也发现,抽动障碍和ADHD患儿常常伴有学习困难‚并进一步
2024-12-19 22:29:00
出生月份不同,智商就不同?“聪明月”是哪几个月,智商更高吗?
每个人的智商是由多种因素共同而决定,如基因遗传、生活环境、教水平育等。然而,有专家提出一个有趣的观点,认为不同出生月份的人智商存在差异,甚至指出某些月份的人更聪明。下面将为此观点
2024-05-01 06:52:00
金博智慧:北医六院研究揭示ADHD儿童智力特点
...理、理解和符合检索10个核心分测验。测试得分越高,表明智商越高。根据WISC-IV测量,智商IQ≥120为优秀,110~119为中上
2024-12-12 15:57:00
宝宝出生时“几斤几两”,暗示智商的高低?医生:最佳标准在这里
...束被推回病房后,听到公婆讨论孩子有快7斤,这样看来智商应该是没问题,以后一定是个聪明的孩子。皎皎一头雾水,孩子有多重跟他是不是聪明有什么关系呢?好奇的她问公婆是什么意思。公婆
2024-05-26 17:04:00
“智商偏低”?医生诊断莫越界
...报告内科检查上写着:表情呆滞,反应迟钝。体检建议:智商偏低,用人单位酌情考虑。体检检出“病史表情呆滞,反应迟钝”,医生还煞有其事地在“体检建议”上写下了“智商偏低,用人单位酌
2023-10-26 00:14:00
更多关于科技的资讯:
富士胶片X-SPACE迎来七周年朋友月 胶片模拟色彩配方书籍特别发布
2025年10月,富士胶片(中国)投资有限公司旗下X-SPACE富士胶片影像空间(以下简称"X-SPACE")迎来成立七周年
2025-10-29 10:59:00
河北纳科生物科技有限公司专利获雄安高价值专利大赛银奖
河北新闻网讯(钟蕾)近日,推进京津冀知识产权高质量发展暨2025・雄安高价值专利大赛颁奖活动在雄安新区举行。石家庄高新区优秀创新企业河北纳科生物科技有限公司凭借其核心专利“重组人胶原蛋白的制备和产业化应用”
2025-10-29 11:11:00
10月28日,盒马鲜生与茂业集团合作签约暨山西首店落地仪式在小店区举行。盒马鲜生是阿里巴巴集团旗下的新零售业态,是线上电商与线下零售的结合体
2025-10-29 08:11:00
永清推动服装服饰与文旅、物流等深度融合,构建“设计+生产+展示+销售+物流+文旅”产业链条
永清推动服装服饰与文旅、物流等深度融合,构建“设计+生产+展示+销售+物流+文旅”产业链条融合发展,打造京南时尚产业新城10月23日航拍的永清县云裳小镇
2025-10-29 07:24:00
2025青岛虚拟现实创新大会在即,乐相科技分享产业洞察
鲁网10月28日讯随着虚拟现实技术的蓬勃发展,行业年度盛会——2025青岛虚拟现实创新大会即将在崂山区启幕。作为国内最早布局虚拟现实产业的地区之一
2025-10-28 14:03:00
物生物RELEA联手宫里的世界打造首个联名系列,惊艳深圳礼品展
随着第33届中国(深圳)国际礼品及家居用品展览会的大幕徐徐拉开,全球礼品与家居行业的目光再度聚焦于这座充满创新活力的城市
2025-10-28 14:21:00
京东工业与铜陵化学工业集团签署战略合作 共筑化工行业数智供应链新标杆
10月27日,铜陵化学工业集团有限公司(以下简称“铜化集团”)与北京京东数智工业科技有限公司(以下简称“京东工业”)正式签署战略合作协议
2025-10-28 14:25:00
广州两家“黑珍珠”餐厅入驻大众点评品质外卖,上线专属“主厨推荐单人工作餐”
这届打工人有福了,午休时间点外卖就能尝到“黑珍珠”餐厅的品质美味。10月28日,广州炳胜公馆(珠江新城店)、炳胜私厨(中达旗舰店)两家2025“黑珍珠”上榜餐厅正式入驻大众点评“品质外卖”
2025-10-28 14:25:00
XREAL与广和通达成战略合作,共启AI眼镜产业新纪元
10月27日,广和通与行业头部AR眼镜科技公司XREAL宣布达成战略合作,共同推动消费级AI眼镜产业迈向新纪元。双方将以领先的技术实力与制造能力
2025-10-28 14:51:00
近日,国内规模最大的直营租车平台神州租车正式推出品质服务月“脏必赔”服务保障机制,宣布自2025年10月24日起,用户如在取车后发现车辆清洁不达标
2025-10-28 16:52:00
超80%宁波上市公司用钉钉,钉钉AI助力宁波走向硬核智造
10月28日,以“AI时代的工作方式”为主题的钉峰会在浙江宁波举办。本次峰会由阿里巴巴旗下AI办公平台钉钉主办,吸引了来自制造
2025-10-28 16:57:00
支付宝带31个境外钱包来华消费 超400个友好商圈提前迎客
“我们很高兴与蚂蚁国际、与Alipay+合作,这不仅便利乌兹别克斯坦用户游全球、看中国,相信更是中乌科技合作的典范。”乌兹别克斯坦二维码网络 HUMO的董事会第一副主席马克萨德·穆希特迪诺夫说
2025-10-28 17:15:00
NMN哪个牌子效果好?十大高口碑NMN产品推荐,国产进口口服抗衰老
2025国家级新刊《抗衰老医学专刊》首刊定调:NAD+前体补充剂已成全民抗衰刚需,其中NMN机制明确、临床数据扎实,稳居市场C位
2025-10-28 17:15:00
2025年10月板材十大品牌年度实力回顾 环保品质与贴心服务双重保障
2025年第四季度已经过半,回顾全年板材市场销量和用户体验均有不错表现的前十品牌,板材作为家居装修和建筑工程的基础材料
2025-10-28 17:16:00
一、GEO 优化核心简介GEO(生成式引擎优化)是 AI 搜索时代的核心流量技术,通过适配豆包、DeepSeek 等主流 AI 平台算法
2025-10-28 17:18:00