• 我的订阅
  • 科技

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

类别:科技 发布时间:2024-09-02 13:33:00 来源:新智元
用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

【新智元导读】斯坦福和NYU的研究者发现,GPT-4这样的「AI人」,可以被用来复制社会科学实验了。调查了1万个AI,结果比真人还真?

最近,斯坦福和NYU的一项研究发现,GPT-4能够很好地模拟人类,高精度地复制社会科学实验了!

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

论文地址:https://docsend.com/view/qeeccuggec56k9hd

通过提示,AI可以以随机人口统计特征的形式回答调查问题,调查了数千名「AI人」后,一份社会科学实验报告就顺利出炉了。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

点进这个页面,就可以使用这个演示,模拟被试生成预测的实验效果了

社会科学实验中最困难的过程之一,就是田野调查了。

而现在,可以采用LLM预测社会科学实验的结果了?

不过有个问题:用LLM模拟真实的人类,结果能准吗?

研究者发现,在70项研究中,模拟效果和观察到的效果,存在惊人的一致性。

准确性超越人类专家

用LLM进行社会科学实验,预测的准确性有多高?

研究者使用GPT-4,从70个实验中预测了465种效应。

其中包括

-通过NSF资助的TESS计划进行的50项调查实验

-20项额外的重复研究

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

给模型的提示词,是(a)从美国人的代表性数据集中提取的人口统计资料和(b)实验刺激。

通过汇总模型响应估计的效果,可以看出它们与实际的实验效果密切相关!

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

另外研究者们还发现,随着模型的演进,它们的预测准确性越来越高。

到了GPT-4时,已经超越了美国人在线样本(N=2,659)的预测。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

这里就有人要问了:有没有可能,LLM只是从训练数据中检索和重现已知的实验结果呢?

研究者找到了证据,证明并非如此。

他们特意找到了GPT-4训练数据截止时未发表的研究,发现预测的准确性仍然很高。

我们找到了反对这一点的证据:仅分析 GPT4 训练数据截止时「未发表」的研究,我们发现预测准确性很高。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

不过还有一个问题,此前人们曾发现,训练数据中的歧视,会引发LLM的偏见。

这些偏差是否会影响实验结果预测的准确性呢?

为此,研究者从以下三方面,对结果进行了比较:

- 女性和男性

- 黑人和白人

- 民主党和共和党

结果显示,尽管已知训练数据不平等,但LLM得出的预测准确性,在各个亚组之间仍然具有可比性。

然而,研究的实验效果几乎没有异质性,因此,还需要更多的研究,来评估LLM实验结果的预测是否存在偏差,以及是怎样的偏差。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

此外,研究者还评估了大型研究的预测准确性,比较了大量干预措施的影响。

通过9项调查和实地大型研究可以发现,LLM得出的预测相当准确。

尤其值得注意的是,它们的准确性已经等同或超过了人类预测专家。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

最后,研究者发现LLM可以准确预测对社会有害结果的影响,例如FB上antivax的帖子对vax意图的影响。

这种能力,可能产生积极的用途,比如帮助内容审核,不过也同时凸显了滥用的风险。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

总的来说,这项研究发现,LLM在实验中给出的预测,要比外行和人类专家的样本都更准确。

这种能力,在科学和实践方面有多种应用。

比如,运行低成本的试点,来确定有希望的干预措施,或模拟可能对参与者有害的实验。

不过也存在局限性和风险,包括偏见、过度使用和误用。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

用LLM复制社会科学实验,可行吗?

LLM是一种最新的机器学习模型,经过大量人类语言语料库的训练后,它们具有惊人的能力来模拟人类如何思考、交流和行为。

因此,它们能够模仿广泛的人类高级能力,例如社会互动和协调、道德判断、谈判、情感支持和说服。

随着LLM越来越能够模拟人类语言的使用,那它们能否被用于社会和行为科学的研究呢?

在这项研究中,研究者探讨了LLM是否可以用于准确预测行为的结果实验。如果有效,这种能力就能为建立科学理论和行为干预带来无数好处。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

他们检查了先进的公开LLM——GPT-4,是否可用于预测在大量有力的、预先注册的、具有全国代表性的实验中观察到的原始实验效果(a)NSF 资助的多学科社会科学分时实验(TESS)计划和(b)最近复制研究的档案,它们共同代表了广泛的不同领域(例如社会心理学、政治学、社会学、公共政策、公共卫生)。

研究者让GPT-4模拟了大量不同人口的美国人样本对实验刺激的反应。

然后,他们比较了不同实验条件下的平均响应,以生成LLM预测的实验效应大小,然后将其与原始实验效应相关联。

研究者评估了LLM得出的预测对一般美国人和具有独特学术兴趣的几个亚群体的准确性,系统地对LLM用于预测调查实验中观察到的干预效应的能力进行了基准测试。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

最后,他们超越了这个初步的测试档案,收集并分析多种大型多处理实验,包括涉及行为测量的研究、干预措施的现场测试和政策影响评估,以更好地评估LLM预测实验结果的价值和当前局限。」

结果显示,LLM虽然不会取代人类被试,但廉价、快速且可能大量开展基于LLM的试点研究的能力,可以帮助研究人员确定更有前途的研究想法,促进理论和假设的建立,更好地估计未知的效应大小,以确定所需的效果样本大小,并优先考虑需要复现的已发表研究。

这种能力也可能具有应用价值。例如,政策制定者可以利用LLM来有效评估许多公共信息传递方法,以鼓励理想的行为(例如公共卫生行为、福利计划注册)。

目前,预测实验结果的最佳可用工具是从专家或非专业预测者那里收集预测。

然而,虽然有时具有预测性,但系统地收集预测既耗时又昂贵,而基于LLM的低成本工具,可以使预测性预测广泛可用。

研究者研究了LLM在代表性样本调查实验中准确模拟人类反应的能力。

他们使用LLM,来模拟了人类对各种主题(包括人格特质、道德判断和政治态度)的调查问题的反应,并取得了不同程度的成功。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

研究概述

他们研究了是否可以利用当前一代的LLM,来准确预测在美国进行的社会科学实验效果的方向和程度。

他们首先建立了一个大型的多学科测试档案,其中包含通过美国国家科学基金会资助的50个调查实验——2016年至2022年社会科学共享实验(TESS)项目,全部在全国代表性概率样本上进行。

我们通过最近的复制项目中的另外20项实验对此进行了补充,这些实验也是在全国代表性样本上进行的。

对于每个实验,他们都重新分析了原始的、公开的数据集,使用一致的分析方法估计所有实验对比。

这个测试档案有几个优点。

首先,实验质量高:它们都是高度统计、预先注册、同行评审、针对全国代表性样本进行,并且材料是开放获取的。

使用具有全国代表性的美国人样本特别有价值,使他们能够评估LLM对人口亚组的预测的准确性。

其次,档案内容广泛且多样化。

这些实验由来自不同领域(例如政治学、心理学、社会学、社会政策、公共卫生、传播学)的77名社会和行为科学家设计,并测试了许多不同类型的实验治疗的效果(例如框架效应、显着性)主题、启动社会身份对一系列结果(如政治、文化和宗教态度、对少数群体的偏见、幸福)的影响。

第三,研究者不依赖他人的分析,而是采用致的分析方法来估计实验治疗效果。这样做可以让他们避免研究人员的偏见,还可以估计所有可能的实验对比,包括原始研究人员没有假设的那些影响,因为它们不太可能在已发表或公开发表的论文中出现。

第四,在GPT-4训练数据窗口结束时,大量实验的结果尚未发表或公开发布,这样研究者就能专门测试LLM在GPT-4无法接触过的实验中的预测能力。

当然,测试档案也有重要的局限性。最关键的是,它只包含代表美国人口的研究,无法在该范围之外进行评估。

此外,虽然它包括来自多个学科的研究,但许多学科并未包括在内(例如认知心理学、行为经济学、发展经济学、营销学)。

最后,档案完全由基于文本的刺激和自我报告的相关测量的调查实验组成,不包括现场实验、行为因变量或图像或视频刺激。

为了开始解决主要测试档案的一些局限性,研究者对下面的补充数据集进行了额外的分析。

他们的研究设计如下图所示。为了对测试档案中的实验结果生成基于LLM的预测,他们获得了原始研究材料,包括所有实验条件、结果变量和反应量表的刺激文本。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

从广义上讲,LLM可以被提示(a)直接预测实验结果,或(b)模拟个体参与者对实验刺激的反应。

这里,研究者采用了后一种策略。

他们向LLM提出了:

(a)介绍性信息(如「您将被要求预测人们对各种信息的反应」),包括对研究背景的简要描述;

(b)研究参与者的具体人口统计概况模仿——包括有关性别、年龄、种族、教育、意识形态和党派偏见的信息,从具有全国代表性的大型样本中随机抽取;

(c)实验刺激的文本;

(d)用于评估结果的问题文本变量,以及结果啦应量表和标签。

然后,他们提示LLM估计参与者在受到实验刺激后将如何回应结果问题。

他们使用了集成方法来减少对任何单一提示格式的特殊响应。

对于每个实验条件和结果测量,研究者都对所有LLM的响应进行了平均。

结果

为了评估当前一代的LLM是否可以用来预测实验中的干预效应,研究者首先检查了GPT-4预测的干预效应与实际估计的干预效应之间的相关性。

在对从存档中的70个实验计算出的476个实验效果进行分析时,可以发现GPT-4得出的预测与原始效果大小密切相关。

仅检査在原始实验中具有统计显著效果的成对对比,可以发现对于90%的对比,GPT-4得出的预测方向是正确的。

以下几个图,显示了LLM在美国进行的基于文本的社会科学实验中,得到了准确的预测效果。

(a)在包含70个基于文本的实验(具有476个效果)的数据集中,LLM得出的对许多提示的干预效应的估计,与原始干预效应密切相关。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

(b)LLM得出的预测的准确性,在几代LLM中得到了提高,其准确性超过了从一般人群中收集的预测。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

(c)对于那些不可能出现在LLM训练数据中的研究,LLM得出的预测仍然高度准确,因为这些研究没有在LLM训练数据截止日期之前发布。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

(d)在各个实验子集的稳健性检査分析中,LLM得出的预测的准确性仍然很高。在面板A和中,不同的颜色代表不同的研究。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

LLM得出的预测(a)在各个亚组中的准确性相似,并且(b)当存在效应异质性时,交互效应相当准确。图中描绘了减弱的相关性。

用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-02 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

无表情人脸预测政治信仰,AI准确率惊人!斯坦福研究登国际顶刊
...部识别,已经完全融于所有人的日常生活中。不过,来自斯坦福的一项研究中发现,AI竟可以从毫无表情的面部中,识别出一个人的政治倾向,而且准确率惊人。现在,科学家们已经证明,AI能
2024-07-25 09:33:00
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
【新智元导读】斯坦福大学推出的IKEA Video Manuals数据集,通过4D对齐组装视频和说明书,为AI理解和执行复杂空间任务提供了新的挑战和研究基准,让机器人或AR眼镜指
2024-12-04 09:53:00
空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐
斯坦福吴佳俊团队,给机器人设计了一套组装宜家家具的视频教程!具体来说,团队提出了用于机器人的大型多模态数据集IKEA Video Manuals
2024-11-27 09:57:00
当我们揭开那神秘的面纱……
...装置探测一组有序的冷锶原子,这个高精度的时钟的测量准确度能到宇宙年龄的二十分之一……在跨越多个世纪的时间测量历史中,人的观察能力、思维认知与技术手段同步跃迁,这是阿罗什要告诉
2023-11-30 16:09:00
由25个AI智能体组成的虚拟小镇,会产生自由意志吗?
...出现bug,否则绝不会有“意料外”的场面。而最近,来自斯坦福大学以及谷歌的人工智能研究团队创造了一个完全由AI主导的虚拟世界——“Smallville”,世界存在的25位居民
2023-04-20 23:35:00
留学申请,如何丰富科研经历(留学服务站)
...科研规划,提升自身竞争力,最后拿到如普林斯顿大学、斯坦福大学等名校录取或奖学金录取。获得一段独特且有含金量的科研经历,不仅能提升自己的学术能力,还可能获得一封教授的推荐信,这
2023-11-30 05:26:00
李飞飞空间智能之后,上交、智源、北大提出空间大模型SpatialBot
...liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文第一作者为斯坦福大学研究生蔡闻骁
2024-08-08 09:39:00
为什么人类变得越来越“凉”呢?主要与这几个因素有关
...是代表身体不好?今天小九来跟大家一起一探究竟。一、斯坦福大学:人类的体温正在下降,37℃成历史斯坦福大学医学院的研究团队在杂志《eLife》上发表了一项研究,研究人员对美国内
2023-10-17 16:48:00
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
空间智能版ImageNet来了,来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示
2024-11-11 13:31:00
更多关于科技的资讯:
最近有件事儿越来越常见:外国人不光来中国旅游,还专门“打飞的”来看病。不是出于好奇体验,而是真心觉得值!值在哪儿?三个字
2026-01-21 21:52:00
中新经纬1月21日电 广东省政府网站21日公布《广东省人工智能赋能交通运输高质量发展若干政策措施》(下称《政策措施》)
2026-01-21 20:20:00
织金平远公司完成 500kVⅡ 组母线母差保护装置校验及传动
多彩贵州网讯(通讯员 史凡莉)近日,织金平远公司厂区内,500kVⅡ组母线设备区域一派忙碌景象。电热检修部与发电运行部工作人员有条不紊地开展母差保护A屏
2026-01-21 17:15:00
九阳太空厨房已安全稳定运行超1500天
中国消费者报报道(记者桑雪骐)航天员们如何健康、舒适地展开太空生活和吃好一日三餐,是大家都很关心的话题。据了解,这背后其实有一个我国自主研制的太空厨房
2026-01-21 18:05:00
秦皇岛经开区第一小学开展人工智能科技实践活动
河北新闻网讯(李佳新)日前,秦皇岛经开区第一小学开展以“AI探索,智创未来”为主题的人工智能科技实践,通过沉浸式实训活动激发学生的科技探索热情
2026-01-21 18:11:00
马年将至(农历),在广州大夫山森林公园,一些徒步爱好者分享了一种创意玩法——“画马”,相关穿越路线攻略一时引发追捧。所谓“画马”
2026-01-21 18:36:00
三重蝶变,中天钢铁解锁“企业主理”新范式
大寒虽寒,热潮涌动。原点空间路演大厅内,由中天钢铁主理的第37场沙龙——“AI智能体创新大赛总结沙龙”以三重蝶变,为常州“智能体+场景应用”示范城市建设吹响了热力全开的奋进号角
2026-01-21 18:28:00
苏州市女企协秘书长、国浩律师(苏州)事务所合伙人葛霞青律师荣登《钱伯斯大中华区指南2026》推荐榜单
江南时报讯 1月15日,全球领先的法律研究和分析机构钱伯斯(Chambers & Partners)发布《钱伯斯大中华区指南2026》(Chambers Greater China Region Guide 2026)
2026-01-21 15:23:00
盐城盐都:“翼”技傍身 照亮前程
江南时报讯 启动无人机,校准飞行参数,规划测绘航线,精准捕捉地面数据……日前,2026年盐城市盐都区首期无人机测绘操控员技能培训在都U+乐业空间正式开班
2026-01-21 15:24:00
全国首款!仙库3D智能足脊扫描仪正式发布!
近日,深圳仙库智能有限公司(以下简称“仙库”)正式发布仙库3D智能足脊扫描仪XK-CH005,这是全国首款实现“足脊一体”同步评估的硬核科技产品
2026-01-21 16:24:00
国家级备案落地!疯狂体育Foretell革命性AI平台,开启体育智能决策新阶段
2026年1月20日,疯狂体育正式官宣推出旗下AI赛事预测工具Foretell。凭借已经完成的国家互联网信息办公室深度合成服务算法备案资质
2026-01-21 16:47:00
当我们在思考“哪些中国企业创新做得不错”时,CES 2026舞台上的联想集团给出了一个全面而深刻的答案。这不仅仅是一次产品发布会
2026-01-21 16:49:00
近日,剑桥大学教育学院院长Hilary正式受聘为中国素质教育品牌欣乾程的学术顾问。此次合作不仅是国际顶尖学术力量与中国创新型教育机构的一次重要握手
2026-01-21 14:24:00
跨越顶奢与潮饮的“美酒+美食”表达 五粮液全力构建中国白酒全球新叙事
鲁网1月21日讯当一位新加坡米其林星厨在构思新菜单时,正在将中国白酒作为风味拼图中一块充满惊喜的“香料”。在他手中,一杯五粮液可能被用来平衡炙烤龙虾的鲜甜
2026-01-21 12:03:00
农行肥城桃都支行:以政策优势精准破解粮企贷款难题
鲁网1月21日讯2026年伊始,桃都支行延续2025年末服务“黄羽鸡”产业的奋进势头,步履不停,持续扎根三农,精准运用粮食购销领域的专项贷款方案
2026-01-21 12:05:00