• 我的订阅
  • 科技

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

类别:科技 发布时间:2024-09-12 09:58:00 来源:机器之心Pro

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

机器之心报道

编辑:Panda、蛋酱

近日,一篇关于自动化 AI 研究的论文引爆了社交网络,原因是该论文得出了一个让很多人都倍感惊讶的结论:LLM 生成的想法比专家级人类研究者给出的想法更加新颖!

我们都知道通过调节 LLM 的温度值确实可以调整它们的随机性和创造性,但在科学研究方面比人类还懂创新?这还是超乎了很多人的想象 —— 至少很多人没想到这会来得这么快。难道 AI 科学家真的要来了?

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

那么,这项来自斯坦福大学的研究究竟得出了什么样的结论呢?

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

论文地址:https://arxiv.org/abs/2409.04109 调查链接:https://tinyurl.com/execution-study 项目地址:https://github.com/NoviScl/AI-Researcher

LLM 能生成新颖的研究思路吗?

为了准确地对比 LLM 与人类在科研思路创新方面的能力,斯坦福大学的这个研究团队招募了 104 位 NLP 研究者,让其中 49 位写下创新研究想法,然后再让 79 位专家对 LLM 和人类给出的思路进行盲测。请注意,其中有 24 位人类专家既写了想法,也参与了盲测,当然他们并不评估自己写的内容。

模型(或者按该团队的说法:思路生成智能体)方面,该团队使用了 claude-3-5-sonnet-20240620 作为骨干模型。具体来说,给定一个研究主题(比如:可以提升 LLM 事实性并降低其幻觉的提示方法),让 LLM 生成一系列对 Semantic Scholar API 的函数调用。这个论文检索动作空间包括 {KeywordQuery (keywords), PaperQuery (paperId), GetReferences (paperId)} 。每个动作生成都基于之前的动作和已执行的结果。

该研究使用的研究主题有 7 个:偏见、编程、安全性、多语言、事实性、数学和不确定性。下表是各个主题的想法数量:

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

研究过程如下图所示:

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

这里我们不细说其详细的设置和评估过程,详见原论文。总结起来就是比较人类专家与 AI 智能体生成的科研思路的新颖程度。我们直接来看结论。

根据该团队思路评分(Idea Ranking)规则,他们对人类和 AI 提出科研思路进行了打分,见图 2 和表 7:

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

其中 Human Ideas 是指招募的专家研究者提出的思路,而 AI Ideas 则是 LLM 智能体给出的排名第一的思路。AI Ideas + Human Rerank 是指由 AI 生成思路但由本研究一作 Chenglei Si 手动从排名靠前的思路中选择他认为最好的一个。

可以看到,在新颖度方面,不管是 AI Ideas 还是 AI+Rerank,都显著优于 Human Ideas(p < 0.01)。在激动人心(excitement)分数上,AI 生成的思路的优势更是明显(p<0.05)。并且 AI Ideas + Human Rerank 的整体分数也优于人类(p<0.05)。不过 AI 生成的思路在另外两方面(可行性和有效性)与人类的差别不大。

当然,我们也能看出,这项调查研究有一些明显的局限,比如其调查范围较小,样本量太少了,评价很主观。另外作者也指出人类研究者可能会「藏私」,可能并不会分享自己的最佳想法。

不管怎样,这项研究证明了一点:让 AI 参与到科学研究中多半是有利的。尤其是当你灵感枯竭、思维阻塞时,问一问 LLM 或许就能有意想不到的收获。

生成创新想法的 AI 工具,正在不断涌现

实际上,已经有研究团队在打造专用于此类任务的 AI 工具了。比如近日一位专注于开发 LLM 应用的研究者 Shubham Saboo 就在社交网络分享了使用 Cursor 构建一个多智能体 AI 研究者的过程。他表示整个过程用时不到 5 分钟!参见如下视频:

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

视频链接:https://mp.weixin.qq.com/s/XHrQ2espDn9SdB9LlcOBvw

也有人分享了自己的一项相关研究,表示可以使用 LLM 和因果图谱自动生成心理学假设,并生成比 GPT-4 和博士生表现都好:

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

近日,印度科学学院(Indian Institute of Science,IISc)的研究者发现,AI 在设计创意方面也比人类更有想法。具体来说,AI 可通过一种新的人工智能会话式「主动构思」(Active Ideation)界面来生成新创意。作为一种创意构思生成工具,它可帮助新手设计师缓解一部分的初始延迟和构思瓶颈。

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

论文标题:A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System 论文地址:https://arxiv.org/pdf/2409.05747

具体来说,这是一种动态、交互、上下文响应式方法,通过大型语言模型(LLM)主动参与,为不同的设计问题生成多个潜在创意陈述。论文称之为「主动构思场景」,它有助于促进基于对话的持续互动、对上下文敏感的对话以及多产的构思生成。

在当前的很多研究设计中,从书面信息到基于关键词的在线资源检索的转变至关重要。这强调了文本在转变思维模式和通过发展高级设计语言促进系统化构思方面的重要性。下表 1 总结了最常用的传统构思技术、其过程、局限性、涉及的认知原则以及在产生创意方面的预期结果。

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

虽然这些传统方法已被广泛使用,但它们往往无法为新手设计师提供积极的支持。在产生新颖想法的过程中,原创性和多样性主要依赖于设计者。这一空白标志着将人工智能与构思相结合的潜力。

这篇论文就深入探讨了对话式人工智能(CAI)系统的设计、开发和潜在使用案例,重点是比较基于 CAI 的构思工具与传统方法的效率。

有两个有趣的特点使 CAI 系统看起来很智能:(a) 能够就给定主题生成智力上可接受的文章,(b) 能够在先前交互的基础上生成对后续询问的回复。这使得交互成为关于特定主题的连贯对话。因此,如果特征(a)是对一个观点的描述,那么特征(b)就可以被构建为对该观点的阐述和澄清。

如图 3 所示,这项研究设计并开发了一个主动构思界面,使用了生成式预训练 Transformer(GPT)对话式人工智能系统,该系统嵌入了一个交互式情绪板(moodboard)。GPT 为自然语言交互提供了基础,使其能够根据用户输入做出响应并生成创意陈述,情绪板提供了一种快速记录这些想法的手段。因此,该界面为设计师提供了一个对话式的直观平台,由 GPT 驱动创意生成。

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

由于本研究调查的是建议的基于 CAI 的构思界面对新手设计师的潜在益处,因此招募了 30 名产品设计研究生(下图),分为 A 和 B 两组。

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

论文对这 30 名新手设计师进行了试点研究,让他们使用传统方法和基于 CAI 的新界面,针对给定问题产生创意。然后,让专家小组使用流畅性、新颖性和多样性等关键参数对结果进行了定性比较。

研究结果表明,本文所提出的 AI 工具在生成多产、多样和新颖的想法方面非常有效。通过在每个构思阶段加入提示设计的结构化对话风格,使界面更加统一,更方便设计者使用。结果发现,这种结构化 CAI 界面所产生的反应更加简洁,并与随后的设计阶段(即构思阶段)保持一致。

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

从图 5(a)中可以看出,68% 的专家认为 GPT 产生的想法更有意义。此外,图 5 (b) 显示,GPT 生成的语句的得票率始终高于设计者生成的想法。

下表是 A 和 B 两组的想法陈述对比:

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

以下是不同维度下,人类与 GPT 构思的评估结果对比:

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

更多研究细节,可查看原论文。

结语

创新,长久以来被视为人类不可被机器触及的领地,然而,LLM 所展现的「幻觉」现象却悄然打开了这扇门,揭示了创新机制可能并非我们想象中那般高不可攀。

近期在 AI 创造性研究领域的突破,预示着 AI 在创意之路上或将迎来前所未有的广阔天地。展望未来,或许在不远的将来,我们将见证 AI 科学家、AI 导演、AI 设计师们纷纷挥洒创意,它们的作品将点亮 AI 应用的崭新篇章。

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-12 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

13个国家的青年科研人员来陕培训
...多国家的关注。作为科研人员,我希望能够和共建国家的科学家一起,为应对气候变化作出应有的贡献。”据了解,中国科学院地球环境研究所在2018年首次承办“一带一路”气候环境变化国际
2023-09-21 04:51:00
中国-巴基斯坦地球科学研究中心在伊斯兰堡揭牌成立
...,分享智慧。来自巴基斯坦有关高校和科研机构负责人、科学家代表,中国-巴基斯坦地球科学研究中心重要咨询专家、参建单位代表、中国有关科研院校及驻巴中资企业代表参加了揭牌仪式。(总
2023-10-27 08:44:00
全球前2%顶尖科学家榜单 吉林农业大学2位学者入选
...y)与爱思唯尔(Elsevier)联合发布2023年度“全球前2%顶尖科学家榜单”(World's Top 2% Scientists)
2023-11-15 17:09:00
安徽大学人工智能研究方向9位学者荣登全球前2%顶尖科学家榜单
...出版社爱思唯尔(Elsevier)共同发布了2024年度全球前2%顶尖科学家榜单(World's Top 2% Scientists 2024)
2024-10-11 20:01:00
宇宙真的存在一个造物主?它是一种神秘力量?爱因斯坦信奉神学?
在人类历史的长河中,科学家们一直致力于探索宇宙的奥秘。在这个过程中,有一位杰出的物理学家,杨振宁教授,以其独特的视角和深入的研究,为人们揭示了宇宙背后的奥秘。他公开表示,这个世界
2024-06-20 11:02:00
灵魂真的存在吗?爱因斯坦:可能以电波形式存在
...念,其存在与否在科学界和哲学界引发了诸多讨论。一些科学家和哲学家通过不同的方式证明了灵魂的存在,而另一些人则认为灵魂只是人类思维的产物,并不存在于现实中。有趣的是,一些著名的
2023-10-19 16:45:00
斯坦福大学如何培养人文专业的本科生
...了学生发现乃至创新的可能。斯坦福认为,每个人都知道科学家在进行研究,但他们未必知道人文学者和理工科学者一样,也在构建知识。因此,即使是大一学生,也可以参与人文研究。在斯坦福,
2023-12-05 06:25:00
爱因斯坦探针卫星在轨科学探测图像发布 中关村论坛迎来首个空间科学主题
...平行论坛空间科学论坛上,爱因斯坦探针(EP)卫星首席科学家、中国科学院国家天文台研究员袁为民发布了EP卫星首批在轨科学探测图像,受到国内外专家的高度认可和关注。图源:新华社爱
2024-04-28 20:35:00
他被称中国的“爱因斯坦”,难得奇才,为何最后沦落扫厕所?
...出巨大贡献的研究者,很多人肯定会提到那些耳熟能详的科学家的名字。可是,你知道吗?还有更多的科学家在默默的为我们作出贡献,可是却因为这样或那样的原因,他们的名字并不为我们所了解
2023-02-04 11:00:00
更多关于科技的资讯:
合作再升级 阿维塔完成向华为115亿投资支付
阿维塔给华为打了34.5亿,这是第三笔投资款,算下来阿维塔前后一共给了115亿,现在这笔钱全付清了,这意味着阿维塔正式拿到了华为引望10%的股份
2025-10-10 12:16:00
记者10月9日获悉,国家发展改革委、市场监管总局近日发布《关于治理价格无序竞争维护良好市场价格秩序的公告》,提出在保护经营者自主定价权的前提下
2025-10-10 12:20:00
中新经纬10月10日电 题:京东为啥也要卖咖啡?作者 朱丹蓬 广东省食品安全保障促进会副会长、中国食品产业分析师随着消费者对“即买即得”需求的日益增长
2025-10-10 12:23:00
虎鲸文娱发布《2025国庆假期文娱消费报告》票房火热 大屏“圈粉”南报网讯(记者鲁舒婷)10月8日,虎鲸文娱发布的《2025国庆假期文娱消费报告》(以下简称《报告》)显示
2025-10-10 07:32:00
名创优品MINISO深耕IP战略:岭南骑楼店开业首日引爆Z世代消费热潮
2025年8月17日,名创优品MINISO LAND华南首店于广州北京路步行街正式开业。该店以百年岭南骑楼为空间载体,融合超过100个全球热门IP
2025-10-09 11:15:00
荣耀Magic8系列发布会官宣定档10月15日
10月9日,荣耀官方正式宣布,主题为“开新局・见未来”的荣耀 Magic8 系列暨 Magic OS10 发布会将于10 月15日正式举行
2025-10-09 11:30:00
局部降水量80毫米以上!10—14日烟台市将有持续连阴雨天气
齐鲁晚报·齐鲁壹点 周宣刚10月7日10时,烟台市气象局发布10—14日连阴雨天气预报和大风警报。受高空槽东移和暖湿气流输送北上的水汽影响
2025-10-09 11:31:00
权威发布, 福瑞达颐莲品牌价值评估突破120亿
2025年9月25日,在中国香料香精化妆品工业协会主办的“2025中国香妆品牌价值大会”上,福瑞达生物股份旗下颐莲品牌凭借卓越的市场表现与品牌影响力
2025-10-09 11:32:00
持续创新高!高德扫街榜上线23天用户超4亿
这个国庆黄金周,高德APP和高德扫街榜正在持续创新高——10月3日,高德扫街榜宣布:上线仅23天,累计用户超4亿。10月1日
2025-10-09 11:33:00
国庆中秋,大马再掀中餐热潮!“鱼你速度”树出海标杆!
国庆中秋双节期间,马来西亚再度掀起中餐热潮!以“鱼你在一起”为代表的中餐连锁品牌,在当地各大商圈持续引爆消费热情。“6个月
2025-10-09 11:34:00
开启商超智慧储鲜,澳柯玛新品冷柜让食材更鲜活
鲁网10月9日讯当社区团购爆单时冰柜塞不下?当生鲜进货量太大冻不透?当网红雪糕因串味被迫贱卖?针对这些让商超、饭馆等用户抓狂的痛点
2025-10-09 11:40:00
鸡排哥8天假期涨粉超40万,节前已成立工作室,10月9日休息一天
10月8日,江西景德镇鸡排哥在个人社交账号发布一则视频,向全国各地来到家乡景德镇游玩和打卡买鸡排的游客表示感谢。鸡排哥表示近期天气炎热
2025-10-09 12:09:00
大疆部分产品直降千元!消费者炸锅,官方回应
10月8日,大疆在官网提前挂出“双十一”促销信息,多款产品价格直降数百至上千元。此次降价幅度较大。从几百元到几千元不等
2025-10-09 13:45:00
单日游客最高突破6.9万人次 忠县橘若·忠州渡接住“泼天流量”
这个国庆假期,重庆忠县江畔的橘若·忠州渡结结实实地“火”出了圈,八天揽客30余万人次,游客单日最高接待量突破6.9万人次
2025-10-09 13:57:00
谷子科技“智慧票根”创新亮相2025和平精英PEL运动会
10月7日,由谷子科技集团、和平精英职业联赛(PEL)与腾讯音乐娱乐集团联合出品,腾讯音乐娱乐集团与安徽易趣网络科技有限公司承办
2025-10-09 14:01:00