• 我的订阅
  • 科技

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

类别:科技 发布时间:2024-06-19 09:21:00 来源:知新了了

弄清楚人工智能模型如何“思考”可能对人类的生存至关重要 —— 但直到最近,像GPT和Claude这样的人工智能对它们的创造者来说一直是一个谜。现在,研究人员表示,他们可以发现(甚至改变)人工智能大脑中的想法。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

如果你听听人工智能预言者颇为令人信服的论点,你会发现,未来几代人工智能对人类构成了深刻的威胁 —— 甚至可能是一种生存风险。

我们都看到像ChatGPT这样的应用程序是多么容易被欺骗,说或做一些它们不应该做的顽皮的事情。我们看到它们试图隐瞒自己的意图,寻求和巩固权力。人工智能通过互联网进入现实世界的机会越多,它们就越有能力以各种创造性的方式造成伤害,如果它们决定这样做的话。

它们为什么要这么做?我们不知道。事实上,它们的内部运作或多或少是完全不透明的,甚至对建造它们的公司和个人也是如此。

人工智能模型的不可思议的外星“思想”

这些引人注目的软件与之前的大多数软件非常不同。它们的人类创造者已经建立了架构,基础设施和方法,通过这些人工智能可以开发他们的智能版本,他们已经给它们提供了大量的文本,视频,音频和其他数据,但从这一点开始,人工智能已经向前发展,建立了它们自己对世界的“理解”。

它们将这些海量的数据转换成被称为符号的小碎片,有时是文字的一部分,有时是图像的一部分或音频的一部分。然后,它们建立了一个非常复杂的概率权重集,将一个标记与另一个标记联系起来,并将一组标记与另一组标记联系起来。在这方面,它们有点像人类的大脑,寻找字母、单词、声音、图像和更模糊的概念之间的联系,并将它们构建成一个极其复杂的神经网络。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

这些充满概率权重的巨大矩阵代表了人工智能的“思维”,它们驱动着人工智能接收输入和响应特定输出的能力。而且,就像激发了它们设计灵感的人类大脑一样,几乎不可能弄清楚它们到底在“想”什么,或者它们为什么要做出某些决定。

就我个人而言,我一直把它们想象成被锁在黑盒子里的奇怪的外星人的大脑。它们只能通过有限的管道与世界交流,信息可以通过这些管道流入和流出。所有试图让这些思想与人类一起高效、安全、无害地工作的尝试都是在管道层面完成的,而不是对“思想”本身。

我们不能告诉它们该怎么想,我们不知道粗鲁的语言或邪恶的概念在它们的大脑中生活在哪里,我们只能限制它们能说什么和能做什么 —— 这个概念现在很难,但随着它们变得越来越聪明,将变得越来越难。

这是我对一个密集而复杂的情况的高度简化的、愚蠢的理解 —— 如果有必要,请进入评论来扩展、查询、辩论或澄清 —— 但它给出了一些迹象,说明为什么我认为最近从Anthropic和OpenAI中传来的消息是人类与人工智能关系中如此重要的里程碑。

可解释性:凝视着黑盒子

Anthropic Interpretability团队在5月底的一篇博客文章中写道,“今天,我们在理解人工智能模型的内部工作原理方面取得了重大进展。我们已经确定了在Claude Sonnet(我们部署的大型语言模型之一)中如何表示数百万个概念。这是有史以来第一次详细了解现代生产级大型语言模型。这种可解释性的发现,可以帮助我们在未来使人工智能模型更安全。”

从本质上讲,Anthropic团队一直在跟踪其人工智能模型工作时的“内部状态”,让它们在与人类互动时吐出代表人工大脑中“神经元激活”的大量数字列表。“事实证明,”研究小组写道,“每个概念都是通过许多神经元来表示的,每个神经元都参与表示许多概念。”

Anthropic的研究人员使用一种名为“字典学习”的技术,通过“稀疏自动编码器”,开始尝试将“神经元激活”的模式与人类熟悉的概念和想法相匹配。去年年底,他们在极小的“玩具”版本的语言模型上取得了一些成功,发现了模型在处理DNA序列、数学名词和大写文本等概念时激活的“思维模式”。

这是一个有希望的开始,但该团队并不确定它是否能扩展到今天商业LLM的巨大规模,更不用说后续的机器了。因此,Anthropic建立了一个字典学习模型,能够处理自己中型的Claude Sonnet LLM,并开始大规模测试这种方法。

结果呢?嗯,整个团队都惊呆了。“我们成功地从Claude 3.0十四行诗的中间层提取了数百万个特征,”博客文章写道,“在计算的中途提供了其内部状态的粗略概念图。这是有史以来第一次详细了解现代生产级大型语言模型。”

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

人工智能以独立于语言甚至数据类型的方式存储概念,这是一件很有趣的事情;例如,当模型处理金门大桥的图像或多种不同语言的文本时,金门大桥的“想法”就会亮起来。

“想法”也可以变得更加抽象;该团队发现,当遇到编码错误、性别偏见或许多不同的接近自由裁量权或保密概念的方式时,这些特征会被激活。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

事实上,该团队能够在AI的概念网络中找到各种各样的黑暗,从关于代码后门和生物武器开发的想法,到种族主义、性别歧视、权力追求、欺骗和操纵的概念。都在里面。

更重要的是,研究人员能够观察存储在模型“大脑”中的不同概念之间的关系,开发出一种测量它们之间“距离”的方法,并构建一系列思维导图,显示概念之间的联系有多紧密。例如,在金门大桥概念附近,该团队发现了其他特征,如恶魔岛、金州勇士队、加州州长加文·纽森和1906年旧金山地震。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

同样的道理也适用于更抽象的概念,比如“第二十二条军规”(Catch-22)的情况,该模型将其归类为“不可能的选择”、“困难的情况”、“奇怪的悖论”和“进退两难”。该团队写道,“这表明,人工智能模型中概念的内部组织至少在某种程度上与我们人类的相似性概念相对应。这也许就是Claude善于类比和比喻的原因。”

人工智能脑部手术的开始 —— 以及潜在的额叶切除术

“重要的是,”研究小组写道,“我们还可以操纵这些特征,人为地放大或抑制它们,看看Claude的反应是如何变化的。”

该团队开始“箝制”某些概念,改变模型,使某些功能在回答完全不相关的问题时被迫启动,并发现它彻底改变了模型的行为。

这是非常不可思议的东西;Anthropic已经证明,它不仅可以创建人工智能的思维导图,还可以编辑该思维导图中的关系,并摆弄模型对世界的理解,以及随后的行为。

这里的人工智能安全潜力是显而易见的;如果你知道不好的想法在哪里,你可以看到人工智能什么时候在想这些想法,那么你就有了一个额外的监督层,可以在监督的意义上使用。如果你能加强或削弱某些概念之间的联系,你就有可能使某些行为从人工智能的可能反应范围中消失,甚至从它对世界的理解中剔除某些想法。

这在概念上让人想起科幻巨作《美丽心灵的永恒阳光》中,金·凯瑞和凯特·温丝莱特在分手后雇了一家洗脑公司把对方从记忆中抹去。而且,就像电影一样,它提出了一个问题:你真的能删除一个强大的想法吗?

Anthropic团队也证明了这种方法的潜在危险,“夹住”了骗局电子邮件的概念,并展示了与这个想法足够强大的心理联系如何能够迅速绕过Claude模型的对齐训练,禁止它写这样的内容。这种人工智能脑部手术确实可以增强模型做出邪恶行为的潜力,并让它砸碎自己的护栏。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

Anthropic对这项技术的范围还有其他保留意见。“这项工作才刚刚开始,”该团队写道。“我们发现的特征代表了模型在训练过程中学习到的所有概念的一小部分,使用我们目前的技术找到一套完整的特征将是成本过高的(我们目前的方法所需的计算将大大超过最初用于训练模型的计算)。”

“了解模型使用的表示,并不能告诉我们它是如何使用它们的;即使我们有了这些特征,我们仍然需要找到它们所涉及的电路。我们需要证明,我们已经开始发现的安全相关特征实际上可以用来提高安全性。但还有很多事情要做。”

换句话说,这种东西可能是一个非常有价值的工具,但它不太可能完全理解商业规模的人工智能的思维过程。这不会给末日预言者带来多少安慰,他们会指出,当后果可能是存在的时候,99.999%的成功率是不够的。

尽管如此,这仍然是一个非凡的突破,也是对这些令人难以置信的机器理解世界方式的非凡洞察。看到人工智能的思维地图与人类的思维地图有多接近,这将是一件很有趣的事情,如果有可能测量的话。

OpenAI:也致力于可解释性,但显然落后了

Anthropic是现代人工智能/LLM领域的关键参与者之一,但该领域的霸主仍然是OpenAI,它是突破性GPT模型的制造商,当然也是最能推动公众围绕人工智能展开讨论的公司。

事实上,Anthropic是由一群前OpenAI员工于2021年创立的,在OpenAI与微软合作并开始更像一个商业实体的同时,将人工智能的安全性和可靠性放在首位。

但OpenAI也一直在研究可解释性,并使用了非常相似的方法。在6月初发布的一项研究中,OpenAI可解释性团队宣布,他们在GPT-4中发现了大约1600万个“思维”模式,其中许多模式可被破译,并可映射到对人类有意义的概念上。

OpenAI团队似乎还没有冒险进入地图构建或思维编辑领域,但它也注意到理解大型人工智能模型的内在挑战。该团队写道:“目前,通过稀疏自动编码器传递GPT-4的激活,其性能相当于用大约10倍的计算量训练的模型。为了完全映射前沿LLM中的概念,我们可能需要扩展到数十亿或数万亿个特征,即使我们改进了缩放技术,这也将是一个挑战。”

这两家公司目前都还处于起步阶段。但至少人类现在至少有两种方法可以打开人工智能神经网络的“黑匣子”,并开始理解它是如何思考的。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-19 12:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

脑机智能如何与数字生命融合,创造全新未来?
...一场颠覆性的技术革命正在酝酿之中。7月6日,2023年世界人工智能大会(WAIC 2023)在上海盛大启幕。由中科院上海分院为指导单位
2023-07-17 16:00:00
...转自:杭州日报刘捷在杭州城市大脑2.0推进会上强调抢抓人工智能机遇 聚力增智提效赋能 持续推动城市大脑迭代升级姚高员马小秋出席本报讯(首席记者 赵芳洲)杭州城市大脑2.0推进
2024-03-30 06:19:00
《荒岛机器人》:只要有爱,就能打破“程序”的一切原有设定
...打造的全新力作《荒野机器人》已于9月20日温暖上映。当人工智能机器人遇上破壳的超萌动物幼崽,他们之间将碰撞出怎样神奇的火花?《荒野机器人》上映5天便已有近十万人打卡看过,豆瓣
2024-09-26 21:50:00
人工智能专家张文宇:人工智能的发展离不开人性的驱动
由于GPT等人工智能大语言模型的狂飙,人们开始担忧人工智能会让人类下课甚至下线吗?当机器越来越像人,人类路在何方?2023年12月2日下午,温州市中国基因药谷国际学术交流中心热闹
2023-12-04 20:16:00
意识是人类区别于动物的根本所在,人类为什么拥有意识?
...正因如此,意识研究成为了哲学、神经科学、心理学乃至人工智能等多个学科领域的交汇点,成为当代科学探索中最令人着迷的课题之一。大脑,这个人类智慧的发源地,经历了亿万年的进化,从最
2024-09-02 10:54:00
“联盟智能”:共享大数据“思想”
...的数据就像苹果一样是各自的“核心资产”,是自身训练人工智能模型的基础。可仅靠自家数据训练出来的人工智能模型往往“思想性”不够,存在精准性、适应性不高等“瓶颈”。要保障用户数据
2023-08-07 03:24:00
为神经技术发展及早划定边界
...为神经技术行业建立共同的伦理框架,教科文组织已经在人工智能领域完成了这项工作。”教科文组织总干事阿祖莱表示。本次教科文组织国际会议将探索神经技术在解决难治性神经系统和精神障碍
2023-06-09 01:06:00
...问题研究院网络空间国际治理研究中心联合发布了《全球人工智能安全治理》报告。报告站在全球视角纵览、分析和解读人工智能安全治理问题,提出人工智能发展面临十大安全挑战,探索既能发挥
2023-01-19 05:35:00
...”2024年(第二十三届)中国互联网大会期间,北京智源人工智能研究院理事长黄铁军在接受人民网专访时,深入剖析了云数据计算与人工智能大模型的最新进展,并展望了数字经济未来的发展
2024-07-10 19:51:00
更多关于科技的资讯:
王座赛事杭州站圆满落幕 台球产业生态链迎来升级热潮
9月6日,为期四天的王座赛事第一站在杭州希尔顿酒店圆满落幕,这项集竞技、产品、文化于一体的台球盛宴,不仅为观众呈现了精彩赛事
2025-09-08 13:37:00
强生眼力健与光正眼科举行合作集团揭牌仪式,共创“价值医疗”新范式
重塑白内障患者诊疗流程,推动精准屈光诊疗方案惠及患者【2025年9月5日,杭州】在中华医学会第二十九次眼科学术大会(CCOS2025)这一行业盛会上
2025-09-08 13:39:00
强生眼力健携手何氏眼科,共筑中国眼健康创新生态
以“医教研”一体化,加速全球前沿技术转化【2025年9月6日,杭州】为加速共筑中国眼健康创新生态,强生旗下的眼健康业务强生眼力健
2025-09-08 13:39:00
以“数字中台+智贸生态”赋能广州万亿级市场 数字化转型升级
2025年广州(秋季)白云里国际美妆节白云电商高峰论坛于9月5日在白云里国际美妆中心成功召开。本次论坛汇聚了广州市白云区电子商务行业协会会长朱东炫
2025-09-08 13:39:00
印象草原:一场关于“自我设计”的时尚革命蓄势登场
当服装跳出市场同质化“单品”的定义,成为承载个性的专属“战袍”,一场关于“自我设计”的时尚革命正蓄势登场。2025年9月9日
2025-09-08 13:39:00
强生眼力健与香港希玛眼科携手共建创新技术合作集团,引领屈光白内障及老视诊疗新篇章
【2025年9月6日,杭州】 近日,在中华医学会第二十九次眼科学术大会(CCOS2025)期间,强生眼力健与香港希玛医疗集团(以下简称“希玛医疗”
2025-09-08 13:40:00
强生眼力健携手爱尔眼科,共筑精准屈光诊疗全国标准化体系
以技术驱动,定义高品质眼科服务规模化落地新范本【2025年9月5日,杭州】在中华医学会第二十九次眼科学术大会(CCOS2025)期间
2025-09-08 13:41:00
首个电商蟹卡兑换系统上线:五年投入两千万元研发 无法履约最高赔10万元
蟹卡标注着长期有效,兑换时商家却玩起了失联。每逢中秋节前,不少消费者因蟹卡无法兑换而踩雷。今年大闸蟹消费季,京东超市宣布为消费者提供百分百可兑换服务
2025-09-08 13:48:00
小米回应车主提车发现是测试车:静电贴痕迹,湿毛巾就能擦掉
近日,有小米YU7车主反映,提车后发现前挡风或后挡风玻璃上存在“测试车”静电贴残留痕迹。9月7日,小米集团公关部总经理王化在微博回应称
2025-09-08 11:54:00
贵州大数据集团中标国内首个“云胶片”项目
在贵州,一朵惠及全民的“医疗云”正腾空而起。9月4日,国内首个数字化医用耗材“云胶片”省级带量采购项目中标结果正式出炉
2025-09-08 11:53:00
□南京日报/紫金山新闻记者王国俊通讯员宁穗独角兽企业的成长既需要企业自身的科技实力,也离不开良好的发展环境。近日,记者从南京市税务局获悉
2025-09-08 07:42:00
产业发展“最佳助攻”,如此赋能!
9月2日,位于苏美达伊顿纪德仓储分拨中心厂区,申通快递员工直接将打包好的校服扫码揽收、装箱、发出,迅速、高效地将包裹送至客户手中
2025-09-08 07:42:00
□南京日报/紫金山新闻记者徐宁在南京,软件产业创新活力奔涌。南京市千行万业鸿蒙原生应用正式开启,南京开鸿城市产业园在建邺区启动建设
2025-09-08 07:43:00
未来到底怎么飞?2025智博会揭秘蓝天新赛道
大河网讯 低空经济是当下热议的话题,也是智能制造新赛道。在此背景下,2025世界智能产业博览会设置了低空经济专区,展现了各色各样的无人机和低空飞行器
2025-09-07 23:22:00
“跨界玩家”涌现,追觅、MOVA、TCL正用AI重划家电版图|硬氪直击IFA2025
编者按:2025年IFA(柏林国际电子消费品展览会),中国厂商又一次攻占会场。坐拥全球最完善、复杂的供应链,储备下数量最多
2025-09-07 10:05:00