我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

世界上第一项针对人工智能“大脑”的研究，剖析并编辑它的思想

类别：科技发布时间：2024-06-19 09:21:00 来源：知新了了

弄清楚人工智能模型如何“思考”可能对人类的生存至关重要 —— 但直到最近，像GPT和Claude这样的人工智能对它们的创造者来说一直是一个谜。现在，研究人员表示，他们可以发现（甚至改变）人工智能大脑中的想法。

如果你听听人工智能预言者颇为令人信服的论点，你会发现，未来几代人工智能对人类构成了深刻的威胁 —— 甚至可能是一种生存风险。

我们都看到像ChatGPT这样的应用程序是多么容易被欺骗，说或做一些它们不应该做的顽皮的事情。我们看到它们试图隐瞒自己的意图，寻求和巩固权力。人工智能通过互联网进入现实世界的机会越多，它们就越有能力以各种创造性的方式造成伤害，如果它们决定这样做的话。

它们为什么要这么做？我们不知道。事实上，它们的内部运作或多或少是完全不透明的，甚至对建造它们的公司和个人也是如此。

人工智能模型的不可思议的外星“思想”

这些引人注目的软件与之前的大多数软件非常不同。它们的人类创造者已经建立了架构，基础设施和方法，通过这些人工智能可以开发他们的智能版本，他们已经给它们提供了大量的文本，视频，音频和其他数据，但从这一点开始，人工智能已经向前发展，建立了它们自己对世界的“理解”。

它们将这些海量的数据转换成被称为符号的小碎片，有时是文字的一部分，有时是图像的一部分或音频的一部分。然后，它们建立了一个非常复杂的概率权重集，将一个标记与另一个标记联系起来，并将一组标记与另一组标记联系起来。在这方面，它们有点像人类的大脑，寻找字母、单词、声音、图像和更模糊的概念之间的联系，并将它们构建成一个极其复杂的神经网络。

这些充满概率权重的巨大矩阵代表了人工智能的“思维”，它们驱动着人工智能接收输入和响应特定输出的能力。而且，就像激发了它们设计灵感的人类大脑一样，几乎不可能弄清楚它们到底在“想”什么，或者它们为什么要做出某些决定。

就我个人而言，我一直把它们想象成被锁在黑盒子里的奇怪的外星人的大脑。它们只能通过有限的管道与世界交流，信息可以通过这些管道流入和流出。所有试图让这些思想与人类一起高效、安全、无害地工作的尝试都是在管道层面完成的，而不是对“思想”本身。

我们不能告诉它们该怎么想，我们不知道粗鲁的语言或邪恶的概念在它们的大脑中生活在哪里，我们只能限制它们能说什么和能做什么 —— 这个概念现在很难，但随着它们变得越来越聪明，将变得越来越难。

这是我对一个密集而复杂的情况的高度简化的、愚蠢的理解 —— 如果有必要，请进入评论来扩展、查询、辩论或澄清 —— 但它给出了一些迹象，说明为什么我认为最近从Anthropic和OpenAI中传来的消息是人类与人工智能关系中如此重要的里程碑。

可解释性：凝视着黑盒子

Anthropic Interpretability团队在5月底的一篇博客文章中写道，“今天，我们在理解人工智能模型的内部工作原理方面取得了重大进展。我们已经确定了在Claude Sonnet（我们部署的大型语言模型之一）中如何表示数百万个概念。这是有史以来第一次详细了解现代生产级大型语言模型。这种可解释性的发现，可以帮助我们在未来使人工智能模型更安全。”

从本质上讲，Anthropic团队一直在跟踪其人工智能模型工作时的“内部状态”，让它们在与人类互动时吐出代表人工大脑中“神经元激活”的大量数字列表。“事实证明，”研究小组写道，“每个概念都是通过许多神经元来表示的，每个神经元都参与表示许多概念。”

Anthropic的研究人员使用一种名为“字典学习”的技术，通过“稀疏自动编码器”，开始尝试将“神经元激活”的模式与人类熟悉的概念和想法相匹配。去年年底，他们在极小的“玩具”版本的语言模型上取得了一些成功，发现了模型在处理DNA序列、数学名词和大写文本等概念时激活的“思维模式”。

这是一个有希望的开始，但该团队并不确定它是否能扩展到今天商业LLM的巨大规模，更不用说后续的机器了。因此，Anthropic建立了一个字典学习模型，能够处理自己中型的Claude Sonnet LLM，并开始大规模测试这种方法。

结果呢？嗯，整个团队都惊呆了。“我们成功地从Claude 3.0十四行诗的中间层提取了数百万个特征，”博客文章写道，“在计算的中途提供了其内部状态的粗略概念图。这是有史以来第一次详细了解现代生产级大型语言模型。”

人工智能以独立于语言甚至数据类型的方式存储概念，这是一件很有趣的事情；例如，当模型处理金门大桥的图像或多种不同语言的文本时，金门大桥的“想法”就会亮起来。

“想法”也可以变得更加抽象；该团队发现，当遇到编码错误、性别偏见或许多不同的接近自由裁量权或保密概念的方式时，这些特征会被激活。

事实上，该团队能够在AI的概念网络中找到各种各样的黑暗，从关于代码后门和生物武器开发的想法，到种族主义、性别歧视、权力追求、欺骗和操纵的概念。都在里面。

更重要的是，研究人员能够观察存储在模型“大脑”中的不同概念之间的关系，开发出一种测量它们之间“距离”的方法，并构建一系列思维导图，显示概念之间的联系有多紧密。例如，在金门大桥概念附近，该团队发现了其他特征，如恶魔岛、金州勇士队、加州州长加文·纽森和1906年旧金山地震。

同样的道理也适用于更抽象的概念，比如“第二十二条军规”（Catch-22）的情况，该模型将其归类为“不可能的选择”、“困难的情况”、“奇怪的悖论”和“进退两难”。该团队写道，“这表明，人工智能模型中概念的内部组织至少在某种程度上与我们人类的相似性概念相对应。这也许就是Claude善于类比和比喻的原因。”

人工智能脑部手术的开始 —— 以及潜在的额叶切除术

“重要的是，”研究小组写道，“我们还可以操纵这些特征，人为地放大或抑制它们，看看Claude的反应是如何变化的。”

该团队开始“箝制”某些概念，改变模型，使某些功能在回答完全不相关的问题时被迫启动，并发现它彻底改变了模型的行为。

这是非常不可思议的东西；Anthropic已经证明，它不仅可以创建人工智能的思维导图，还可以编辑该思维导图中的关系，并摆弄模型对世界的理解，以及随后的行为。

这里的人工智能安全潜力是显而易见的；如果你知道不好的想法在哪里，你可以看到人工智能什么时候在想这些想法，那么你就有了一个额外的监督层，可以在监督的意义上使用。如果你能加强或削弱某些概念之间的联系，你就有可能使某些行为从人工智能的可能反应范围中消失，甚至从它对世界的理解中剔除某些想法。

这在概念上让人想起科幻巨作《美丽心灵的永恒阳光》中，金·凯瑞和凯特·温丝莱特在分手后雇了一家洗脑公司把对方从记忆中抹去。而且，就像电影一样，它提出了一个问题：你真的能删除一个强大的想法吗？

Anthropic团队也证明了这种方法的潜在危险，“夹住”了骗局电子邮件的概念，并展示了与这个想法足够强大的心理联系如何能够迅速绕过Claude模型的对齐训练，禁止它写这样的内容。这种人工智能脑部手术确实可以增强模型做出邪恶行为的潜力，并让它砸碎自己的护栏。

Anthropic对这项技术的范围还有其他保留意见。“这项工作才刚刚开始，”该团队写道。“我们发现的特征代表了模型在训练过程中学习到的所有概念的一小部分，使用我们目前的技术找到一套完整的特征将是成本过高的（我们目前的方法所需的计算将大大超过最初用于训练模型的计算）。”

“了解模型使用的表示，并不能告诉我们它是如何使用它们的；即使我们有了这些特征，我们仍然需要找到它们所涉及的电路。我们需要证明，我们已经开始发现的安全相关特征实际上可以用来提高安全性。但还有很多事情要做。”

换句话说，这种东西可能是一个非常有价值的工具，但它不太可能完全理解商业规模的人工智能的思维过程。这不会给末日预言者带来多少安慰，他们会指出，当后果可能是存在的时候，99.999%的成功率是不够的。

尽管如此，这仍然是一个非凡的突破，也是对这些令人难以置信的机器理解世界方式的非凡洞察。看到人工智能的思维地图与人类的思维地图有多接近，这将是一件很有趣的事情，如果有可能测量的话。

OpenAI：也致力于可解释性，但显然落后了

Anthropic是现代人工智能/LLM领域的关键参与者之一，但该领域的霸主仍然是OpenAI，它是突破性GPT模型的制造商，当然也是最能推动公众围绕人工智能展开讨论的公司。

事实上，Anthropic是由一群前OpenAI员工于2021年创立的，在OpenAI与微软合作并开始更像一个商业实体的同时，将人工智能的安全性和可靠性放在首位。

但OpenAI也一直在研究可解释性，并使用了非常相似的方法。在6月初发布的一项研究中，OpenAI可解释性团队宣布，他们在GPT-4中发现了大约1600万个“思维”模式，其中许多模式可被破译，并可映射到对人类有意义的概念上。

OpenAI团队似乎还没有冒险进入地图构建或思维编辑领域，但它也注意到理解大型人工智能模型的内在挑战。该团队写道：“目前，通过稀疏自动编码器传递GPT-4的激活，其性能相当于用大约10倍的计算量训练的模型。为了完全映射前沿LLM中的概念，我们可能需要扩展到数十亿或数万亿个特征，即使我们改进了缩放技术，这也将是一个挑战。”

这两家公司目前都还处于起步阶段。但至少人类现在至少有两种方法可以打开人工智能神经网络的“黑匣子”，并开始理解它是如何思考的。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-06-19 12:45:12

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于人工智能,剖析,人工,大脑,思想,智能的资讯：

脑机智能如何与数字生命融合，创造全新未来？

...一场颠覆性的技术革命正在酝酿之中。7月6日，2023年世界人工智能大会（WAIC 2023）在上海盛大启幕。由中科院上海分院为指导单位

2023-07-17 16:00:00

抢抓人工智能机遇聚力增智提效赋能持续推动城市大脑迭代升级

...转自：杭州日报刘捷在杭州城市大脑2.0推进会上强调抢抓人工智能机遇聚力增智提效赋能持续推动城市大脑迭代升级姚高员马小秋出席本报讯（首席记者赵芳洲）杭州城市大脑2.0推进

2024-03-30 06:19:00

这个学术论坛聚焦“人工智能时代下哲学社会科学创新发展”

...在江苏南通大学艺术学院举行。大会聚焦“挑战与机遇：人工智能时代下哲学社会科学创新发展”，来自省内外高校、科研院所的知名专家学者、优秀论文作者齐聚一堂，共话人工智能浪潮下哲学社

2025-11-26 05:48:00

《荒岛机器人》：只要有爱，就能打破“程序”的一切原有设定

...打造的全新力作《荒野机器人》已于9月20日温暖上映。当人工智能机器人遇上破壳的超萌动物幼崽，他们之间将碰撞出怎样神奇的火花？《荒野机器人》上映5天便已有近十万人打卡看过，豆瓣

2024-09-26 21:50:00

人工智能专家张文宇：人工智能的发展离不开人性的驱动

由于GPT等人工智能大语言模型的狂飙，人们开始担忧人工智能会让人类下课甚至下线吗？当机器越来越像人，人类路在何方？2023年12月2日下午，温州市中国基因药谷国际学术交流中心热闹

2023-12-04 20:16:00

意识是人类区别于动物的根本所在，人类为什么拥有意识？

...正因如此，意识研究成为了哲学、神经科学、心理学乃至人工智能等多个学科领域的交汇点，成为当代科学探索中最令人着迷的课题之一。大脑，这个人类智慧的发源地，经历了亿万年的进化，从最

2024-09-02 10:54:00

“联盟智能”：共享大数据“思想”

...的数据就像苹果一样是各自的“核心资产”，是自身训练人工智能模型的基础。可仅靠自家数据训练出来的人工智能模型往往“思想性”不够，存在精准性、适应性不高等“瓶颈”。要保障用户数据

2023-08-07 03:24:00

为神经技术发展及早划定边界

...为神经技术行业建立共同的伦理框架，教科文组织已经在人工智能领域完成了这项工作。”教科文组织总干事阿祖莱表示。本次教科文组织国际会议将探索神经技术在解决难治性神经系统和精神障碍

2023-06-09 01:06:00

《全球人工智能安全治理》报告发布

...问题研究院网络空间国际治理研究中心联合发布了《全球人工智能安全治理》报告。报告站在全球视角纵览、分析和解读人工智能安全治理问题，提出人工智能发展面临十大安全挑战，探索既能发挥

2023-01-19 05:35:00

更多关于科技的资讯：

杭州发布两产品年度质量报告：保温杯和童鞋，多买“杭产品”

12月26日，杭州市市场监督管理局召开专题新闻通气会，对外公布了2025年不锈钢真空杯与儿童旅游鞋两类产品的质量比对结果

2025-12-27 07:39:00

“梦溪杯”宋韵文化创新大赛颁奖同期发布宋韵纹样3.0版展

昨天下午，2025“梦溪杯”宋韵文化创新大赛颁奖典礼在杭州凤凰里文创园举行。自10月15日启动至11月20日截稿，大赛共收到来自英国

2025-12-27 07:39:00

蓝天下郑伟龙：种地星球是个温暖治愈的“慢”星球

杭州市西湖区后陡门58号，原本只是城市边缘一个普通的小村子，仅仅三年，这里已经蜕变成“种地星”人的共同家园。这个开园仅两个多月的农文旅融合空间

2025-12-27 07:39:00

快递红酒为什么摔不破？菜鸟有个绿色包材实验室

装有红酒的纸箱从1米多的高度多次抛下，又被送入抗压测试机内，接受300公斤的压力测试，再经斜面冲击台俯冲撞向铁板，红酒依然完好无损……经过这一系列流程

2025-12-27 07:39:00

近八成职场人借助AI开展工作超四成职场人会与AI交流情感

近日，智联招聘发布的《2025雇佣关系趋势报告》显示，78.2%的职场人每周至少使用一次AI工具开展工作。该《报告》基于大量调研问卷生成

2025-12-27 07:39:00

北京2026人形机器人半马全面升级

原标题：北京2026人形机器人半马全面升级明年4月19日开启“人机共跑” 赛事报名通道正式开启2025年4月19日，北京亦庄半程马拉松暨人形机器人半程马拉松在北京亦庄鸣枪开跑

2025-12-26 15:22:00

深耕健康科技二十五载倍轻松以创新驱动智能健康生态升级

2025年12月25日，智能便携按摩器企业倍轻松（688793.SH）披露公告显示，公司及实际控制人马学军因涉嫌信息披露违法违规

2025-12-26 16:02:00

肥乡联社多维度发力深耕网点服务升级

肥乡联社始终坚守“以客户为中心”的服务理念，立足县域金融服务实际，以“精细化”为核心抓手，从环境优化、能力提升、特色服务三个维度发力

2025-12-26 16:37:00

中国人寿成功举办AI大模型竞赛，系统锻造人工智能实战能力

日前，中国人寿保险股份有限公司（以下简称“中国人寿”，股票代码：601628.SH，2628.HK）首届AI大模型竞赛在该公司科技园成功举办

2025-12-26 16:52:00

匠心筑梦智启新程---华夏银行临沂分行2025年度私人银行

鲁网12月26日讯2025年12月12日，华夏银行临沂分行2025年度私人银行客户私享峰会于国金中心荣耀启幕。十六位精英客户应邀赴约

2025-12-26 17:00:00

博士创新站典型案例｜河北易达核联机械制造股份有限公司博士创新

在全球能源清洁低碳转型的浪潮中，核电凭借稳定高效的特性，战略地位愈发凸显，事关国家能源安全与产业未来。面对核电高端套筒长期依赖进口

2025-12-26 17:22:00

博士创新站典型案例｜河北镁神科技股份有限公司博士创新站：校地

在无机盐镁质新材料领域，轻质高纯氧化镁是新能源电池、电子陶瓷等高端产业不可或缺的核心基础材料，其核心技术长期被发达国家企业垄断

2025-12-26 17:23:00

博士创新站典型案例｜容创未来（沧州）新能源有限公司博士创新站

容创未来（沧州）新能源有限公司获批建设河北省博士创新站推动“教学—科研—产业”三方联动为区域经济高质量发展注入科技动能前不久

2025-12-26 17:31:00

博士创新站典型案例｜河北创鉴科技集团有限公司博士创新站：为物

我国物流行业正处于数字化、智能化转型关键期，降本增效与技术升级的双重需求驱动行业变革。当前，中小物流企业普遍面临技术落地难

2025-12-26 17:33:00

湖南和硕智联：智能制造引领鞋业新风尚(图)

在湘中腹地隆回县东南工业园区，一家现代化的制鞋企业正以令人瞩目的姿态快速发展。湖南和硕智联运动用品有限公司，作为香港永京集团在华中地区的重要布局

2025-12-26 17:34:00

头条订阅服务

世界上第一项针对人工智能“大脑”的研究，剖析并编辑它的思想