• 我的订阅
  • 科技

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

类别:科技 发布时间:2024-06-19 09:21:00 来源:知新了了

弄清楚人工智能模型如何“思考”可能对人类的生存至关重要 —— 但直到最近,像GPT和Claude这样的人工智能对它们的创造者来说一直是一个谜。现在,研究人员表示,他们可以发现(甚至改变)人工智能大脑中的想法。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

如果你听听人工智能预言者颇为令人信服的论点,你会发现,未来几代人工智能对人类构成了深刻的威胁 —— 甚至可能是一种生存风险。

我们都看到像ChatGPT这样的应用程序是多么容易被欺骗,说或做一些它们不应该做的顽皮的事情。我们看到它们试图隐瞒自己的意图,寻求和巩固权力。人工智能通过互联网进入现实世界的机会越多,它们就越有能力以各种创造性的方式造成伤害,如果它们决定这样做的话。

它们为什么要这么做?我们不知道。事实上,它们的内部运作或多或少是完全不透明的,甚至对建造它们的公司和个人也是如此。

人工智能模型的不可思议的外星“思想”

这些引人注目的软件与之前的大多数软件非常不同。它们的人类创造者已经建立了架构,基础设施和方法,通过这些人工智能可以开发他们的智能版本,他们已经给它们提供了大量的文本,视频,音频和其他数据,但从这一点开始,人工智能已经向前发展,建立了它们自己对世界的“理解”。

它们将这些海量的数据转换成被称为符号的小碎片,有时是文字的一部分,有时是图像的一部分或音频的一部分。然后,它们建立了一个非常复杂的概率权重集,将一个标记与另一个标记联系起来,并将一组标记与另一组标记联系起来。在这方面,它们有点像人类的大脑,寻找字母、单词、声音、图像和更模糊的概念之间的联系,并将它们构建成一个极其复杂的神经网络。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

这些充满概率权重的巨大矩阵代表了人工智能的“思维”,它们驱动着人工智能接收输入和响应特定输出的能力。而且,就像激发了它们设计灵感的人类大脑一样,几乎不可能弄清楚它们到底在“想”什么,或者它们为什么要做出某些决定。

就我个人而言,我一直把它们想象成被锁在黑盒子里的奇怪的外星人的大脑。它们只能通过有限的管道与世界交流,信息可以通过这些管道流入和流出。所有试图让这些思想与人类一起高效、安全、无害地工作的尝试都是在管道层面完成的,而不是对“思想”本身。

我们不能告诉它们该怎么想,我们不知道粗鲁的语言或邪恶的概念在它们的大脑中生活在哪里,我们只能限制它们能说什么和能做什么 —— 这个概念现在很难,但随着它们变得越来越聪明,将变得越来越难。

这是我对一个密集而复杂的情况的高度简化的、愚蠢的理解 —— 如果有必要,请进入评论来扩展、查询、辩论或澄清 —— 但它给出了一些迹象,说明为什么我认为最近从Anthropic和OpenAI中传来的消息是人类与人工智能关系中如此重要的里程碑。

可解释性:凝视着黑盒子

Anthropic Interpretability团队在5月底的一篇博客文章中写道,“今天,我们在理解人工智能模型的内部工作原理方面取得了重大进展。我们已经确定了在Claude Sonnet(我们部署的大型语言模型之一)中如何表示数百万个概念。这是有史以来第一次详细了解现代生产级大型语言模型。这种可解释性的发现,可以帮助我们在未来使人工智能模型更安全。”

从本质上讲,Anthropic团队一直在跟踪其人工智能模型工作时的“内部状态”,让它们在与人类互动时吐出代表人工大脑中“神经元激活”的大量数字列表。“事实证明,”研究小组写道,“每个概念都是通过许多神经元来表示的,每个神经元都参与表示许多概念。”

Anthropic的研究人员使用一种名为“字典学习”的技术,通过“稀疏自动编码器”,开始尝试将“神经元激活”的模式与人类熟悉的概念和想法相匹配。去年年底,他们在极小的“玩具”版本的语言模型上取得了一些成功,发现了模型在处理DNA序列、数学名词和大写文本等概念时激活的“思维模式”。

这是一个有希望的开始,但该团队并不确定它是否能扩展到今天商业LLM的巨大规模,更不用说后续的机器了。因此,Anthropic建立了一个字典学习模型,能够处理自己中型的Claude Sonnet LLM,并开始大规模测试这种方法。

结果呢?嗯,整个团队都惊呆了。“我们成功地从Claude 3.0十四行诗的中间层提取了数百万个特征,”博客文章写道,“在计算的中途提供了其内部状态的粗略概念图。这是有史以来第一次详细了解现代生产级大型语言模型。”

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

人工智能以独立于语言甚至数据类型的方式存储概念,这是一件很有趣的事情;例如,当模型处理金门大桥的图像或多种不同语言的文本时,金门大桥的“想法”就会亮起来。

“想法”也可以变得更加抽象;该团队发现,当遇到编码错误、性别偏见或许多不同的接近自由裁量权或保密概念的方式时,这些特征会被激活。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

事实上,该团队能够在AI的概念网络中找到各种各样的黑暗,从关于代码后门和生物武器开发的想法,到种族主义、性别歧视、权力追求、欺骗和操纵的概念。都在里面。

更重要的是,研究人员能够观察存储在模型“大脑”中的不同概念之间的关系,开发出一种测量它们之间“距离”的方法,并构建一系列思维导图,显示概念之间的联系有多紧密。例如,在金门大桥概念附近,该团队发现了其他特征,如恶魔岛、金州勇士队、加州州长加文·纽森和1906年旧金山地震。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

同样的道理也适用于更抽象的概念,比如“第二十二条军规”(Catch-22)的情况,该模型将其归类为“不可能的选择”、“困难的情况”、“奇怪的悖论”和“进退两难”。该团队写道,“这表明,人工智能模型中概念的内部组织至少在某种程度上与我们人类的相似性概念相对应。这也许就是Claude善于类比和比喻的原因。”

人工智能脑部手术的开始 —— 以及潜在的额叶切除术

“重要的是,”研究小组写道,“我们还可以操纵这些特征,人为地放大或抑制它们,看看Claude的反应是如何变化的。”

该团队开始“箝制”某些概念,改变模型,使某些功能在回答完全不相关的问题时被迫启动,并发现它彻底改变了模型的行为。

这是非常不可思议的东西;Anthropic已经证明,它不仅可以创建人工智能的思维导图,还可以编辑该思维导图中的关系,并摆弄模型对世界的理解,以及随后的行为。

这里的人工智能安全潜力是显而易见的;如果你知道不好的想法在哪里,你可以看到人工智能什么时候在想这些想法,那么你就有了一个额外的监督层,可以在监督的意义上使用。如果你能加强或削弱某些概念之间的联系,你就有可能使某些行为从人工智能的可能反应范围中消失,甚至从它对世界的理解中剔除某些想法。

这在概念上让人想起科幻巨作《美丽心灵的永恒阳光》中,金·凯瑞和凯特·温丝莱特在分手后雇了一家洗脑公司把对方从记忆中抹去。而且,就像电影一样,它提出了一个问题:你真的能删除一个强大的想法吗?

Anthropic团队也证明了这种方法的潜在危险,“夹住”了骗局电子邮件的概念,并展示了与这个想法足够强大的心理联系如何能够迅速绕过Claude模型的对齐训练,禁止它写这样的内容。这种人工智能脑部手术确实可以增强模型做出邪恶行为的潜力,并让它砸碎自己的护栏。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

Anthropic对这项技术的范围还有其他保留意见。“这项工作才刚刚开始,”该团队写道。“我们发现的特征代表了模型在训练过程中学习到的所有概念的一小部分,使用我们目前的技术找到一套完整的特征将是成本过高的(我们目前的方法所需的计算将大大超过最初用于训练模型的计算)。”

“了解模型使用的表示,并不能告诉我们它是如何使用它们的;即使我们有了这些特征,我们仍然需要找到它们所涉及的电路。我们需要证明,我们已经开始发现的安全相关特征实际上可以用来提高安全性。但还有很多事情要做。”

换句话说,这种东西可能是一个非常有价值的工具,但它不太可能完全理解商业规模的人工智能的思维过程。这不会给末日预言者带来多少安慰,他们会指出,当后果可能是存在的时候,99.999%的成功率是不够的。

尽管如此,这仍然是一个非凡的突破,也是对这些令人难以置信的机器理解世界方式的非凡洞察。看到人工智能的思维地图与人类的思维地图有多接近,这将是一件很有趣的事情,如果有可能测量的话。

OpenAI:也致力于可解释性,但显然落后了

Anthropic是现代人工智能/LLM领域的关键参与者之一,但该领域的霸主仍然是OpenAI,它是突破性GPT模型的制造商,当然也是最能推动公众围绕人工智能展开讨论的公司。

事实上,Anthropic是由一群前OpenAI员工于2021年创立的,在OpenAI与微软合作并开始更像一个商业实体的同时,将人工智能的安全性和可靠性放在首位。

但OpenAI也一直在研究可解释性,并使用了非常相似的方法。在6月初发布的一项研究中,OpenAI可解释性团队宣布,他们在GPT-4中发现了大约1600万个“思维”模式,其中许多模式可被破译,并可映射到对人类有意义的概念上。

OpenAI团队似乎还没有冒险进入地图构建或思维编辑领域,但它也注意到理解大型人工智能模型的内在挑战。该团队写道:“目前,通过稀疏自动编码器传递GPT-4的激活,其性能相当于用大约10倍的计算量训练的模型。为了完全映射前沿LLM中的概念,我们可能需要扩展到数十亿或数万亿个特征,即使我们改进了缩放技术,这也将是一个挑战。”

这两家公司目前都还处于起步阶段。但至少人类现在至少有两种方法可以打开人工智能神经网络的“黑匣子”,并开始理解它是如何思考的。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-19 12:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

脑机智能如何与数字生命融合,创造全新未来?
...一场颠覆性的技术革命正在酝酿之中。7月6日,2023年世界人工智能大会(WAIC 2023)在上海盛大启幕。由中科院上海分院为指导单位
2023-07-17 16:00:00
...转自:杭州日报刘捷在杭州城市大脑2.0推进会上强调抢抓人工智能机遇 聚力增智提效赋能 持续推动城市大脑迭代升级姚高员马小秋出席本报讯(首席记者 赵芳洲)杭州城市大脑2.0推进
2024-03-30 06:19:00
《荒岛机器人》:只要有爱,就能打破“程序”的一切原有设定
...打造的全新力作《荒野机器人》已于9月20日温暖上映。当人工智能机器人遇上破壳的超萌动物幼崽,他们之间将碰撞出怎样神奇的火花?《荒野机器人》上映5天便已有近十万人打卡看过,豆瓣
2024-09-26 21:50:00
人工智能专家张文宇:人工智能的发展离不开人性的驱动
由于GPT等人工智能大语言模型的狂飙,人们开始担忧人工智能会让人类下课甚至下线吗?当机器越来越像人,人类路在何方?2023年12月2日下午,温州市中国基因药谷国际学术交流中心热闹
2023-12-04 20:16:00
意识是人类区别于动物的根本所在,人类为什么拥有意识?
...正因如此,意识研究成为了哲学、神经科学、心理学乃至人工智能等多个学科领域的交汇点,成为当代科学探索中最令人着迷的课题之一。大脑,这个人类智慧的发源地,经历了亿万年的进化,从最
2024-09-02 10:54:00
“联盟智能”:共享大数据“思想”
...的数据就像苹果一样是各自的“核心资产”,是自身训练人工智能模型的基础。可仅靠自家数据训练出来的人工智能模型往往“思想性”不够,存在精准性、适应性不高等“瓶颈”。要保障用户数据
2023-08-07 03:24:00
为神经技术发展及早划定边界
...为神经技术行业建立共同的伦理框架,教科文组织已经在人工智能领域完成了这项工作。”教科文组织总干事阿祖莱表示。本次教科文组织国际会议将探索神经技术在解决难治性神经系统和精神障碍
2023-06-09 01:06:00
...问题研究院网络空间国际治理研究中心联合发布了《全球人工智能安全治理》报告。报告站在全球视角纵览、分析和解读人工智能安全治理问题,提出人工智能发展面临十大安全挑战,探索既能发挥
2023-01-19 05:35:00
...”2024年(第二十三届)中国互联网大会期间,北京智源人工智能研究院理事长黄铁军在接受人民网专访时,深入剖析了云数据计算与人工智能大模型的最新进展,并展望了数字经济未来的发展
2024-07-10 19:51:00
更多关于科技的资讯:
倒计时3天!三联家电“11.11提前抢” 三重补贴撬动山东家电消费
鲁网10月21日讯伴随 “双 11” 消费季临近,山东家电市场迎来年度消费热潮。作为本土家电零售领军企业,三联家电于10月24日至26日率先启动 “11
2025-10-21 17:09:00
“只剩最后500单!”“3、2、1,上链接!”近日,某直播平台上,一名美妆主播正卖力推销一款“限量”粉底液,评论区不断涌现“已拍”“再加点货吧”等留言
2025-10-21 16:44:00
近日,滨海新区知识产权保护中心(以下简称滨海保护中心)通过专业预审服务,高效护航天津医科大学眼科医院科研团队自主研发的“干细胞内囊泡制备与应用”系列专利技术
2025-10-21 15:54:00
驼奶粉行业峰会召开:京东超市与头部企业携手共建“安心驼奶粉”验证方案
10月20日,京东2025驼奶粉行业峰会在京召开,大会以“品质溯源、产业共生”为主题,聚焦行业痛点与机遇,通过多方联动促进产业链健康发展
2025-10-21 11:11:00
江西10家企业入选“中国VR50强企业”
本报讯(全媒体记者左阳天)10月19日,“2025中国VR50强企业”名单正式发布,这是“中国VR50强企业”名单连续第七年发布
2025-10-21 05:52:00
校地专场对接会上,我市一批“钢铁新农人”集中显身手“火眼金睛”识熟果 自动采摘不伤花□南京日报/紫金山新闻记者徐宁果园里
2025-10-21 07:44:00
青春华章 | 南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道
南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道共聚“微”光,好“剧”有戏□南京日报/紫金山新闻记者鲁舒婷近260家相关企业
2025-10-21 07:45:00
培育产业向“新”力 2025厦门国际时尚周圆满落幕
2025厦门国际时尚周在中山路举行,精彩活动吸引众多市民游客。“九球天后”潘晓婷亮相2025厦门国际时尚周。厦门国际时尚周助力首发经济
2025-10-20 08:56:00
总台文创“月兔趣集”数字资产盲盒上线乐数通
中秋佳节,为推动中华优秀传统文化在数字时代实现创造性转化与创新性发展,浙江文化产权交易所(以下简称 “浙江文交所”)携手中央广播电视总台“总台文创”
2025-10-20 14:50:00
向“新”求质 | 潍柴雷沃智慧农业领航智能农机加速出海
鲁网10月20日讯10月17日-10月18日,潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛举行。25款明星机型组成的“全矩阵”智能装备军团震撼列阵
2025-10-20 16:39:00
鸢都家电狂欢“三联家电10.25海信来了”引爆金秋消费季
鲁网10月20日讯 金秋消费季迎来重磅炸弹!三联家电宣布将于10月24日至26日启动年度促销活动——“10.25海信来了”
2025-10-20 16:46:00
战略协同 产品赋能 运营提效丨潍柴雷沃智慧农业2025年全球合作伙伴发展大会召开
鲁网10月20日讯10月17日-18日,以“战略协同·产品赋能·运营提效”为主题的潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛召开
2025-10-20 16:47:00
日前,中国联通、中国移动、中国电信相继宣布,已获得工信部批复,在全国范围开展eSIM手机业务商用试验。这标志着,移动手机彻底告别实体SIM卡的时代正在从愿景走向现实
2025-10-20 17:37:00
从山海通信到智慧出行: OPPO携多项技术创新成果亮相中国移动全球合作伙伴大会
日前,以“碳硅共生 合创AI+时代”为主题的2025中国移动全球合作伙伴大会在广州隆重举办。作为中国移动的重要合作伙伴
2025-10-20 20:00:00
从“黑色黄金”到“智慧矿藏”山东移动“海陆空”一体化擘画智慧油田新蓝图
在国家坚定不移推进能源安全新战略的时代背景下,我国能源行业的数字化转型正加速驶入深水区。在渤海之滨的东营,山东移动围绕胜利油田的智能化需求
2025-10-20 20:25:00