• 我的订阅
  • 科技

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

类别:科技 发布时间:2024-06-19 09:21:00 来源:知新了了

弄清楚人工智能模型如何“思考”可能对人类的生存至关重要 —— 但直到最近,像GPT和Claude这样的人工智能对它们的创造者来说一直是一个谜。现在,研究人员表示,他们可以发现(甚至改变)人工智能大脑中的想法。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

如果你听听人工智能预言者颇为令人信服的论点,你会发现,未来几代人工智能对人类构成了深刻的威胁 —— 甚至可能是一种生存风险。

我们都看到像ChatGPT这样的应用程序是多么容易被欺骗,说或做一些它们不应该做的顽皮的事情。我们看到它们试图隐瞒自己的意图,寻求和巩固权力。人工智能通过互联网进入现实世界的机会越多,它们就越有能力以各种创造性的方式造成伤害,如果它们决定这样做的话。

它们为什么要这么做?我们不知道。事实上,它们的内部运作或多或少是完全不透明的,甚至对建造它们的公司和个人也是如此。

人工智能模型的不可思议的外星“思想”

这些引人注目的软件与之前的大多数软件非常不同。它们的人类创造者已经建立了架构,基础设施和方法,通过这些人工智能可以开发他们的智能版本,他们已经给它们提供了大量的文本,视频,音频和其他数据,但从这一点开始,人工智能已经向前发展,建立了它们自己对世界的“理解”。

它们将这些海量的数据转换成被称为符号的小碎片,有时是文字的一部分,有时是图像的一部分或音频的一部分。然后,它们建立了一个非常复杂的概率权重集,将一个标记与另一个标记联系起来,并将一组标记与另一组标记联系起来。在这方面,它们有点像人类的大脑,寻找字母、单词、声音、图像和更模糊的概念之间的联系,并将它们构建成一个极其复杂的神经网络。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

这些充满概率权重的巨大矩阵代表了人工智能的“思维”,它们驱动着人工智能接收输入和响应特定输出的能力。而且,就像激发了它们设计灵感的人类大脑一样,几乎不可能弄清楚它们到底在“想”什么,或者它们为什么要做出某些决定。

就我个人而言,我一直把它们想象成被锁在黑盒子里的奇怪的外星人的大脑。它们只能通过有限的管道与世界交流,信息可以通过这些管道流入和流出。所有试图让这些思想与人类一起高效、安全、无害地工作的尝试都是在管道层面完成的,而不是对“思想”本身。

我们不能告诉它们该怎么想,我们不知道粗鲁的语言或邪恶的概念在它们的大脑中生活在哪里,我们只能限制它们能说什么和能做什么 —— 这个概念现在很难,但随着它们变得越来越聪明,将变得越来越难。

这是我对一个密集而复杂的情况的高度简化的、愚蠢的理解 —— 如果有必要,请进入评论来扩展、查询、辩论或澄清 —— 但它给出了一些迹象,说明为什么我认为最近从Anthropic和OpenAI中传来的消息是人类与人工智能关系中如此重要的里程碑。

可解释性:凝视着黑盒子

Anthropic Interpretability团队在5月底的一篇博客文章中写道,“今天,我们在理解人工智能模型的内部工作原理方面取得了重大进展。我们已经确定了在Claude Sonnet(我们部署的大型语言模型之一)中如何表示数百万个概念。这是有史以来第一次详细了解现代生产级大型语言模型。这种可解释性的发现,可以帮助我们在未来使人工智能模型更安全。”

从本质上讲,Anthropic团队一直在跟踪其人工智能模型工作时的“内部状态”,让它们在与人类互动时吐出代表人工大脑中“神经元激活”的大量数字列表。“事实证明,”研究小组写道,“每个概念都是通过许多神经元来表示的,每个神经元都参与表示许多概念。”

Anthropic的研究人员使用一种名为“字典学习”的技术,通过“稀疏自动编码器”,开始尝试将“神经元激活”的模式与人类熟悉的概念和想法相匹配。去年年底,他们在极小的“玩具”版本的语言模型上取得了一些成功,发现了模型在处理DNA序列、数学名词和大写文本等概念时激活的“思维模式”。

这是一个有希望的开始,但该团队并不确定它是否能扩展到今天商业LLM的巨大规模,更不用说后续的机器了。因此,Anthropic建立了一个字典学习模型,能够处理自己中型的Claude Sonnet LLM,并开始大规模测试这种方法。

结果呢?嗯,整个团队都惊呆了。“我们成功地从Claude 3.0十四行诗的中间层提取了数百万个特征,”博客文章写道,“在计算的中途提供了其内部状态的粗略概念图。这是有史以来第一次详细了解现代生产级大型语言模型。”

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

人工智能以独立于语言甚至数据类型的方式存储概念,这是一件很有趣的事情;例如,当模型处理金门大桥的图像或多种不同语言的文本时,金门大桥的“想法”就会亮起来。

“想法”也可以变得更加抽象;该团队发现,当遇到编码错误、性别偏见或许多不同的接近自由裁量权或保密概念的方式时,这些特征会被激活。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

事实上,该团队能够在AI的概念网络中找到各种各样的黑暗,从关于代码后门和生物武器开发的想法,到种族主义、性别歧视、权力追求、欺骗和操纵的概念。都在里面。

更重要的是,研究人员能够观察存储在模型“大脑”中的不同概念之间的关系,开发出一种测量它们之间“距离”的方法,并构建一系列思维导图,显示概念之间的联系有多紧密。例如,在金门大桥概念附近,该团队发现了其他特征,如恶魔岛、金州勇士队、加州州长加文·纽森和1906年旧金山地震。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

同样的道理也适用于更抽象的概念,比如“第二十二条军规”(Catch-22)的情况,该模型将其归类为“不可能的选择”、“困难的情况”、“奇怪的悖论”和“进退两难”。该团队写道,“这表明,人工智能模型中概念的内部组织至少在某种程度上与我们人类的相似性概念相对应。这也许就是Claude善于类比和比喻的原因。”

人工智能脑部手术的开始 —— 以及潜在的额叶切除术

“重要的是,”研究小组写道,“我们还可以操纵这些特征,人为地放大或抑制它们,看看Claude的反应是如何变化的。”

该团队开始“箝制”某些概念,改变模型,使某些功能在回答完全不相关的问题时被迫启动,并发现它彻底改变了模型的行为。

这是非常不可思议的东西;Anthropic已经证明,它不仅可以创建人工智能的思维导图,还可以编辑该思维导图中的关系,并摆弄模型对世界的理解,以及随后的行为。

这里的人工智能安全潜力是显而易见的;如果你知道不好的想法在哪里,你可以看到人工智能什么时候在想这些想法,那么你就有了一个额外的监督层,可以在监督的意义上使用。如果你能加强或削弱某些概念之间的联系,你就有可能使某些行为从人工智能的可能反应范围中消失,甚至从它对世界的理解中剔除某些想法。

这在概念上让人想起科幻巨作《美丽心灵的永恒阳光》中,金·凯瑞和凯特·温丝莱特在分手后雇了一家洗脑公司把对方从记忆中抹去。而且,就像电影一样,它提出了一个问题:你真的能删除一个强大的想法吗?

Anthropic团队也证明了这种方法的潜在危险,“夹住”了骗局电子邮件的概念,并展示了与这个想法足够强大的心理联系如何能够迅速绕过Claude模型的对齐训练,禁止它写这样的内容。这种人工智能脑部手术确实可以增强模型做出邪恶行为的潜力,并让它砸碎自己的护栏。

世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

Anthropic对这项技术的范围还有其他保留意见。“这项工作才刚刚开始,”该团队写道。“我们发现的特征代表了模型在训练过程中学习到的所有概念的一小部分,使用我们目前的技术找到一套完整的特征将是成本过高的(我们目前的方法所需的计算将大大超过最初用于训练模型的计算)。”

“了解模型使用的表示,并不能告诉我们它是如何使用它们的;即使我们有了这些特征,我们仍然需要找到它们所涉及的电路。我们需要证明,我们已经开始发现的安全相关特征实际上可以用来提高安全性。但还有很多事情要做。”

换句话说,这种东西可能是一个非常有价值的工具,但它不太可能完全理解商业规模的人工智能的思维过程。这不会给末日预言者带来多少安慰,他们会指出,当后果可能是存在的时候,99.999%的成功率是不够的。

尽管如此,这仍然是一个非凡的突破,也是对这些令人难以置信的机器理解世界方式的非凡洞察。看到人工智能的思维地图与人类的思维地图有多接近,这将是一件很有趣的事情,如果有可能测量的话。

OpenAI:也致力于可解释性,但显然落后了

Anthropic是现代人工智能/LLM领域的关键参与者之一,但该领域的霸主仍然是OpenAI,它是突破性GPT模型的制造商,当然也是最能推动公众围绕人工智能展开讨论的公司。

事实上,Anthropic是由一群前OpenAI员工于2021年创立的,在OpenAI与微软合作并开始更像一个商业实体的同时,将人工智能的安全性和可靠性放在首位。

但OpenAI也一直在研究可解释性,并使用了非常相似的方法。在6月初发布的一项研究中,OpenAI可解释性团队宣布,他们在GPT-4中发现了大约1600万个“思维”模式,其中许多模式可被破译,并可映射到对人类有意义的概念上。

OpenAI团队似乎还没有冒险进入地图构建或思维编辑领域,但它也注意到理解大型人工智能模型的内在挑战。该团队写道:“目前,通过稀疏自动编码器传递GPT-4的激活,其性能相当于用大约10倍的计算量训练的模型。为了完全映射前沿LLM中的概念,我们可能需要扩展到数十亿或数万亿个特征,即使我们改进了缩放技术,这也将是一个挑战。”

这两家公司目前都还处于起步阶段。但至少人类现在至少有两种方法可以打开人工智能神经网络的“黑匣子”,并开始理解它是如何思考的。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-19 12:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

脑机智能如何与数字生命融合,创造全新未来?
...一场颠覆性的技术革命正在酝酿之中。7月6日,2023年世界人工智能大会(WAIC 2023)在上海盛大启幕。由中科院上海分院为指导单位
2023-07-17 16:00:00
这个学术论坛聚焦“人工智能时代下哲学社会科学创新发展”
...在江苏南通大学艺术学院举行。大会聚焦“挑战与机遇:人工智能时代下哲学社会科学创新发展”,来自省内外高校、科研院所的知名专家学者、优秀论文作者齐聚一堂,共话人工智能浪潮下哲学社
2025-11-26 05:48:00
...转自:杭州日报刘捷在杭州城市大脑2.0推进会上强调抢抓人工智能机遇 聚力增智提效赋能 持续推动城市大脑迭代升级姚高员马小秋出席本报讯(首席记者 赵芳洲)杭州城市大脑2.0推进
2024-03-30 06:19:00
《荒岛机器人》:只要有爱,就能打破“程序”的一切原有设定
...打造的全新力作《荒野机器人》已于9月20日温暖上映。当人工智能机器人遇上破壳的超萌动物幼崽,他们之间将碰撞出怎样神奇的火花?《荒野机器人》上映5天便已有近十万人打卡看过,豆瓣
2024-09-26 21:50:00
人工智能专家张文宇:人工智能的发展离不开人性的驱动
由于GPT等人工智能大语言模型的狂飙,人们开始担忧人工智能会让人类下课甚至下线吗?当机器越来越像人,人类路在何方?2023年12月2日下午,温州市中国基因药谷国际学术交流中心热闹
2023-12-04 20:16:00
意识是人类区别于动物的根本所在,人类为什么拥有意识?
...正因如此,意识研究成为了哲学、神经科学、心理学乃至人工智能等多个学科领域的交汇点,成为当代科学探索中最令人着迷的课题之一。大脑,这个人类智慧的发源地,经历了亿万年的进化,从最
2024-09-02 10:54:00
“联盟智能”:共享大数据“思想”
...的数据就像苹果一样是各自的“核心资产”,是自身训练人工智能模型的基础。可仅靠自家数据训练出来的人工智能模型往往“思想性”不够,存在精准性、适应性不高等“瓶颈”。要保障用户数据
2023-08-07 03:24:00
为神经技术发展及早划定边界
...为神经技术行业建立共同的伦理框架,教科文组织已经在人工智能领域完成了这项工作。”教科文组织总干事阿祖莱表示。本次教科文组织国际会议将探索神经技术在解决难治性神经系统和精神障碍
2023-06-09 01:06:00
...问题研究院网络空间国际治理研究中心联合发布了《全球人工智能安全治理》报告。报告站在全球视角纵览、分析和解读人工智能安全治理问题,提出人工智能发展面临十大安全挑战,探索既能发挥
2023-01-19 05:35:00
更多关于科技的资讯:
近日,兴业数金上线投产跨境人民币理财项目,建立基于手机银行APP的“跨境理财通”线上功能专区,助力本行成为第二家实现“跨境理财通”业务全线上办理的内地商业银行
2025-12-06 16:08:00
“我是一名肢残三级的残疾人,请问能享受哪些补贴?”输入文字,几秒钟过后,手机页面就出现了答案——杭州市各级政府的相关助残政策和补贴金额被清晰地列举出来
2025-12-06 10:21:00
河北日报讯(张晓超、李娜)11月19日,辛集市教育北路高架桥上空,一架搭载高清摄像头与专业传感器的无人机缓缓升空,按照预设航线开展桥梁日常检测
2025-12-05 14:56:00
烟台南山学院斩获省部级科技奖荣誉
近日,2025年度中国纺织工业联合会科学技术奖励大会在北京人民大会堂隆重召开。烟台南山学院“针织经编一体成型3D智能织造关键技术及应用”项目斩获“技术发明奖二等奖”
2025-12-05 15:00:00
盐城盐都:“芯”智散热赋能 科创驱动前行
江南时报讯 以科创破局散热赛道,以匠心赋能产业升级。乘着聚焦“3+3”产业体系、培育新兴产业的发展浪潮,盐城市盐都区已在第三代半导体多个细分领域形成显著集聚优势
2025-12-05 15:07:00
中新建电力集团发电产业:智慧电厂新蓝图
近日,中新建电力集团天河热电分公司与上海电气集团举行了一场关键的技术交流会。会议聚焦于天河热电的智慧化升级,上海电气团队在会上系统性地展示了其先进的智慧电厂整体架构规划
2025-12-05 15:09:00
日前,建行河北省分行2025年“人工智能+”劳动技能竞赛顺利结束。全省共有111支队伍选送90项作品参加初赛,经过严格的初审选拔
2025-12-05 15:09:00
全国首台套!助力煤矸石全量高值转化
12月1日,由中能建装配式建筑产业发展有限公司投资建设运营的山西大同千万吨级煤矸石综合利用新技术示范项目陶粒中试线成功建成投运
2025-12-05 15:10:00
如何“反内卷”?54.5%职场人将“优化薪酬激励机制”列为首选
什么是“好工作”?工作有哪些特质会让员工有“好”感受?日前,智联招聘通过问卷调研的方式,对平台用户展开调研,回收3525份有效样本
2025-12-05 15:26:00
国航举办“国航+”生态主题发布会
海外网北京12月5日电(记者严冰)12月5日,中国国际航空股份有限公司(以下简称“国航”)在北京举办“云端无界 凤启耀星河——‘国航+’生态主题发布会”
2025-12-05 15:33:00
乐购房山│实惠购—荟品仓城市奥莱北京首店盛大开业!
12月5日,国内仓储式品牌特卖开创者荟品仓,在房山区瑞来广场盛大开业,带来北京首家城市奥莱门店。近1万平方米超大空间、300+全球知名品牌及1-3折极致折扣
2025-12-05 15:55:00
易生支付“智慧分账”赋能安心鲜生 驱动社区零售全国布局
在社区零售数字化转型加速深化的背景下,易生支付与“社区新零售”新兴企业陕西安心鲜生正式达成合作。依托易生支付的深厚技术积淀与成熟系统能力
2025-12-05 16:09:00
ED用药怎么选?金钢鸟领衔西地那非口崩片品牌阵营,购买渠道全解析
第91届全国药交会上,金鸿药业金钢鸟枸橼酸西地那非口崩片的亮相,让“枸橼酸西地那非品牌选择”“哪里有售”等问题成为行业热议焦点
2025-12-05 16:09:00
苏州黄埭镇推动“产学研”深度融合
江南时报讯 日前,苏州冠鸿智能装备有限公司与中南大学计算机学院“跨界”合作,联合启动轮式双臂机器人研发项目,致力于推动创新成果向现实生产力加速转化
2025-12-05 16:13:00
近邻碰碰:以 “邻里经济”打造智慧社区消费新生态 —— 专访小门神传媒科技集团董事长付信中
鲁网12月4日讯“远亲不如近邻”,这句家喻户晓的俗语,如今被小门神传媒科技集团董事长付信中赋予了全新的商业内涵。由其集团研发推出的近邻碰碰 AI 智慧惠民设备
2025-12-05 16:47:00