• 我的订阅
  • 科技

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

类别:科技 发布时间:2024-08-24 09:31:00 来源:机器之心Pro

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

神经网络是一种灵活且强大的函数近似方法。而许多应用都需要学习一个相对于某种对称性不变或等变的函数。图像识别便是一个典型示例 —— 当图像发生平移时,情况不会发生变化。等变神经网络(equivariant neural network)可为学习这些不变或等变函数提供一个灵活的框架。

而要研究等变神经网络,可使用表示论(representation theory)这种数学工具。(请注意,「表示」这一数学概念不同于机器学习领域中的「表征」的典型含义。本论文仅使用该术语的数学意义。)

近日,Joel Gibson、Daniel Tubbenhauer 和 Geordie Williamson 三位研究者对等变神经网络进行了探索,并研究了分段线性表示论在其中的作用。

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

论文标题:Equivariant neural networks and piecewise linear representation theory 论文地址:https://arxiv.org/pdf/2408.00949

在表示论中,简单表示(simple representation)是指该理论的不可约简的原子。在解决问题时,表示论的一个主要策略是将该问题分解成简单表示,然后分别基于这些基本片段研究该问题。但对等变神经网络而言,这一策略并不奏效:它们的非线性性质允许简单表示之间发生互动,而线性世界无法做到这一点。

但是,该团队又论证表明:将等变神经网络的层分解成简单表示依然能带来好处。然后很自然地,他们又进一步研究了简单表示之间的分段线性映射和分段线性表示论。具体来说,这种分解成简单表示的过程能为神经网络的层构建一个新的基础,这是对傅立叶变换的泛化。

该团队表示:「我们希望这种新基础能为理解和解读等变神经网络提供一个有用的工具。」

该论文证明了什么?

在介绍该论文的主要结果之前,我们先来看一个简单却非平凡的示例。

以一个小型的简单神经网络为例:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

其中每个节点都是 ℝ 的一个副本,每个箭头都标记了一个权重 w,并且层之间的每个线性映射的结果都由一个非线性激活函数 组成,然后再进入下一层。

为了构建等变神经网络,可将 ℝ 和 w 替换成具有更多对称性的更复杂对象。比如可以这样替换:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

其可被描述为:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

不过,要想在计算机上真正实现这个结构,却根本不可能,但这里先忽略这一点。

现在暂时假设函数是周期性的,周期为 2π。当用傅里叶级数展开神经网络时,我们很自然就会问发生了什么。在傅里叶理论中,卷积算子会在傅里叶基中变成对角。因此,为了理解信号流过上述神经网络的方式,还需要理解激活函数在基频上的工作方式。

一个基本却关键的观察是:(sin (x)) 的傅里叶级数仅涉及较高共振频率的项:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

(这里展示了当 是 ReLU 时,(sin (x)) 的前几个傅里叶级数项。)这与我们拨动吉他琴弦时发生的情况非常相似:一个音符具有与所弹奏音符相对应的基频,以及更高的频率(泛音,类似于上面底部的三张图片),它们结合在一起形成了吉他独特的音色。

该团队的研究表明:一般情况下,在等变神经网络中,信息会从更低共振频率流向更高共振频率,但反之则不然:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

这对等变神经网络有两个具体影响:

    等变神经网络的大部分复杂性都出现在高频区, 如果想学习一个低频函数,那么可以忽略神经网络中与高频相对应的大部分。

举个例子,如果使用典型的流式示意图(称为交互图 /interaction graph)表示,一个基于(8 阶循环群)构建的等变神经网络是这样的:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

其中的节点是 C_8 的简单表示,节点中的值表示生成器的动作。在此图中,「低频」简单表示位于顶部,信息从低频流向高频。这意味着在大型网络中,高频将占据主导地位。

主要贡献

该团队做出了一些重要的理论贡献,主要包括:

    他们指出将等变神经网络分解成简单表示是有意义且有用的。 他们论证表明等变神经网络必须通过置换表示构建。 他们证明分段线性(但并非线性)的等变映射的存在受控于类似于伽罗瓦理论的正规子群。 他们计算了一些示例,展示了理论的丰富性,即使在循环群等「简单」示例中也是如此。

等变神经网络和分段线性表示

该团队在论文中首先简要介绍了表示论和神经网络的基础知识,这里受限于篇幅,我们略过不表,详见原论文。我们仅重点介绍有关等变神经网络和分段线性表示的研究成果。

等变神经网络:一个示例

这篇论文的出发点是:学习关于某种对称性的等变映射是有用的。举些例子:

    图像识别结果通常不会随平移变化,比如识别图像中的「冰淇淋」时与冰淇淋所在的位置无关; 文本转语音时,「冰淇淋」这个词不管在文本中的什么位置,都应该生成一样的音频; 工程学和应用数学领域的许多问题都需要分析点云。这里,人们感兴趣的通常是对点云集合的质量评估,而与顺序无关。换句话说,这样的问题不会随点的排列顺序变化而变化。因此,这里的学习问题在对称群下是不变的。

为了解释构建等变神经网络的方式,该团队使用了一个基于卷积神经网络的简单示例,其要处理一张带周期性的图像。

这里,这张周期性图像可表示成一个 n × n 的网格,其中每个点都是一个实数。如果设定 n=10,再将这些实数表示成灰度值,则可得到如下所示的图像:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

我们可以在这张图上下左右进行重复,使之具有周期性,也就相当于这张图在一个环面上。令 C_n = ℤ/nℤ 为 n 阶循环群,C^2_n = C_n × C_n。用数学术语来说,一张周期性图像是从群 C^2_n 到 ℝ 的映射的 ℝ 向量空间的一个元素:。在这个周期性图像的模型中,V 是一个「C^2_n 表示」。事实上,给定 (a, b) ∈ C^2_n 和 ∈ V,可通过移动坐标得到一张新的周期性图像:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

((a, b)・f)(x, y) = f (x + a, y + b)

也就是说,平移周期性图像会得到新的周期性图像,例如:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

得到等变神经网络的一个关键观察是:从 V 到 V 的所有线性映射的 ℝ 向量空间的维度为 n^4,而所有 C^2_n 表示线性映射的 ℝ 向量空间的维度为 n^2。

下面来看一个 C^2_n 等变映射。对于,可通过一个卷积型公式得到 C^2_n 等变映射 V → V:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

举个例子,如果令 c = 1/4 ((1, 0) + (0, 1) + (−1, 0) + (0, −1))。则 c・ 是周期性图像且其像素 (a, b) 处的值是其相邻像素 (a+1, b)、(a, b+1)、(a−1, b) 和 (a, b−1) 的值的平均值。用图像表示即为:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

更一般地,不同 c 的卷积可对应图像处理中广泛使用的各种映射。

现在,就可以定义这种情况下的 C^2_n 等变神经网络了。其结构如下:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

其中每个箭头都是一个卷积。此外,W 通常是 ℝ 或 V。上图是一张卷积神经网络的(经过简化的)图像,而该网络在机器学习领域具有重要地位。对于该网络的构建方式,值得注意的主要概念是:

    此神经网络的结构会迫使得到的映射 V → W 为等变映射。 所有权重的空间比传统的(全连接)神经网络小得多。在实践中,这意味着等变神经网络所能处理的样本比「原始」神经网络所能处理的大得多。(这一现象也被机器学习研究者称为权重共享。)

该团队还指出上图隐式地包含了激活图,而他们最喜欢的选择是 ReLU。这意味着神经网络的组成成分实际上是分段线性映射。因此,为了将上述的第二个主要观察(通过将问题分解成简单表示来简化问题)用于等变神经网络,很自然就需要研究分段线性表示论。

等变神经网络

下面将给出等变神经网络的定义。该定义基于前述示例。

令 G 为一个有限群。Fun (X, ℝ) 是有限群 G 的置换表示(permutation representation)。

定义:等变神经网络是一种神经网络,其每一层都是置换表示的直接和,且所有线性映射都是 G 等变映射。如图所示:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

(这里,绿色、蓝色和红色点分别表示输入、隐藏层和输出层,perm 表示一个置换表示,它们并不一定相等。和普通的原始神经网络一样,这里也假设始终会有一个固定的激活函数,其会在每个隐藏层中被逐个应用到分量上。)

最后举个例子,这是一个基于点云的等变神经网络,而点云是指 ℝ^d 中 n 个不可区分的点构成的集合。这里 n 和 d 为自然数。在这种情况下,有限群 G 便为 S_n,即在 n 个字母上的对称群,并且其输入层由 (ℝ^d)^n = (ℝ^n)^d 给定,而我们可以将其看作是 d 个置换模块 Fun ({1, ..., n}, ℝ) 的副本。如果将 Fun ({1, ..., n}, ℝ) 写成 n,则可将典型的等变神经网络表示成:

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

(这里 d=3 且有 2 层隐藏层。)这里的线性映射应当是 S_n 等变映射,而我们可以基于下述引理很快确定出可能的映射。

引理:对于有限 G 集合 X 和 Y,有,其中 Fun_G (X × Y, ℝ) 表示 G 不变函数 X×Y →ℝ。

根据该引理,,并且 G = S_n 有两条由对角及其补集(complement)给出的轨道。因此,存在一个二维的等变映射空间 n→n,并且这与 n 无关。(在机器学习领域,这种形式的 S_n 的等变神经网络也被称为深度网络。)

为了更详细地理解等变神经网络以及相关的分段线性表示论的定义、证明和分析,请参阅原论文。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-24 11:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

用gpt-4解释30万神经元,原来ai的黑盒要ai自己去打开
...数据特征。但对于规模已经达到百亿、千亿级别的大规模神经网络来说,工作量和工作难度就都涨了亿点点吧。由此,OpenAI的研究人员想到,干嘛不让AI去自动化搞定这个大工程?在这项
2023-05-11 20:04:00
...难以应对节点间关系复杂、数据异质性高的检测任务。图神经网络(GNN)作为一种融合结构与属性信息的深度学习模型,具备强大的图表示学习能力,为异常识别提供了有效路径。本文系统梳理
2025-12-26 23:53:00
科学家竞相破解大型语言模型背后的谜团
...器学习算法,而先进的机器学习算法使用模拟人脑结构的神经网络,信息在不同神经元间传递,以人类不易理解的方式内化数据,缺乏可视化和透明度。这个问题对ChatGPT等大型语言模型(
2024-05-18 02:42:00
...基于“尺度定律”(Scaling Law)去构建更大、更深和更宽的神经网络,可称之为“基于外生复杂性”的通用智能实现方法,但这一路径面临着计算资源及能源消耗难以为继、可解释性
2024-08-17 12:25:00
稀疏自编码器是如何工作的,这里有一份直观说明
...客文章,直观地解释了 SAE 的工作方式。可解释性的难题神经网络最自然的组件是各个神经元。不幸的是,单个神经元并不能便捷地与单个概念相对应,比如学术引用、英语对话、HTTP
2024-08-06 09:27:00
爆火神经网络架构KAN更新2.0!可专属定制,轻松应对经典物理学
爆火神经网络架构KAN,上新了!KAN2.0。此次与科学问题更深入地融合,可以轻松解出经典物理学研究。比如发现拉格朗日量(用来描述整个物理系统动力状态的函数)除此之外,研究者还可
2024-08-22 09:52:00
新一代芯片电路逻辑综合,可扩展可解释的神经电路生成框架
...过程有机结合,展现了新一代逻辑综合技术的美好前景。神经网络架构搜索(Differential Neural Network Architecture Search
2024-11-06 09:44:00
深度学习在AI教育中的应用及其关键技术探究
摘要:本文介绍了深度学习技术的基本原理,包括神经网络结构和工作原理、激活函数的选择和作用、损失函数的定义和优化方法以及反向传播算法的实现细节。然后,以智能教育辅助系统为例,说明了
2023-09-12 11:30:00
揭开黑盒子:探索人工智能背后的科学原理与风险
...是机器是如何表现智能特征的(symptoms of intelligence)。在神经网络时代到来之前,人工智能领域占主导地位的是依靠暴力算法的专家系统
2023-06-05 14:00:00
更多关于科技的资讯:
心脏检测只需30秒?中国移动河南公司用AI守护“心”生
大河网讯 “30秒检测、3分钟出结论,贴在手指就能完成专业级心电检测,这枚‘装在口袋里的心电图机’,正让心血管疾病早筛变得简单
2026-01-26 14:10:00
福建首个OPC共生社区在厦落地技术、算力加持,打造AI“抱团”创业新模式东南网1月26日讯 (海峡导报记者 刘彦玫) 人工智能技术的裂变式发展
2026-01-26 15:55:00
腾讯元宝内测“元宝派”,探索社交AI新形态
1月26日,腾讯旗下AI助手元宝低调开启全新社交AI玩法“元宝派”内测。从目前流出的内测截图来看,用户可以选择创建一个“派”
2026-01-26 15:56:00
鲁网1月26日讯会议收集的37条意见及建议正形成落实整改方案向公司党委会汇报。2025年以来,临沂联通以“倾听一线声音”的改革行动正持续释放效能
2026-01-26 16:29:00
临沂联通完成全市首个5G LAN业务验证落地 赋能多场景应用
鲁网1月26日讯近日,山东联通省市协同,在临沂顺利完成山东联通首个5G LAN业务落地验证工作,成功实现了基于5G专网与5G LAN技术的大二层组网部署
2026-01-26 16:31:00
自主干活能手登陆央视春晚舞台,银河通用为官方指定具身大模型机器人
1月25日,中央广播电视总台正式官宣,银河通用机器人正式成为总台2026年春节联欢晚会指定具身大模型机器人。当传承中华文脉的除夕守岁邂逅引领全球科技的具身智能企业
2026-01-26 16:59:00
再获认可!豌豆思维荣获“胡润百富2025年度素质教育影响力品牌”
2026年1月25日,豌豆思维凭借在课程创新与教学服务上的扎实实践,荣膺“胡润百富2025年度素质教育影响力品牌”称号
2026-01-26 16:59:00
心有归处,风行万里 | 第20届时尚旅游金榜盛典圆满落幕
1月23日,由《时尚》杂志社主办,《时尚旅游》杂志社承办的第20届《时尚旅游》金榜盛典在北京瑰丽酒店落下帷幕。本届盛典以“心有归处
2026-01-26 14:58:00
故城“焦”点:一位经销商与古贝春的二十三年长跑
古贝春故城经销商焦所维鲁网1月26日讯(记者 吴美琳)在冀鲁交界的故城县,白酒市场风起云涌,品牌大战如火如荼。然而,有一面旗帜二十三年始终屹立——古贝春
2026-01-26 14:08:00
章丘首店!三联家电强势入驻济南章丘世茂广场
鲁网1月26日讯山东家电零售领域的领军品牌——“三联家电”,近日传来重磅消息:其章丘区域首店正式落户章丘世茂广场!这一标志性举措
2026-01-26 14:08:00
哪些燃气热水器有一级能效?2026年高效热水器权威之选
在家庭能源消耗中,燃气热水器占据着显著比例。选择一台真正的一级能效产品,已成为2026年精明消费者的共识。这不仅是响应绿色低碳生活的号召
2026-01-26 11:13:00
科技赋能护平安!中国移动江苏公司无人机“空中巡查”守护市集烟火气
近日,宜兴CO.Five国际青年社区不凡市集火热开市,吸引了众多国内游客和国际青年前来打卡。市集上琳琅满目的手工艺品、特色美食与互动游戏
2026-01-26 11:14:00
2026 新年限定零食礼包推荐:全家共享的年味优选
2026 年新春将至,兼具新年限定属性与家庭装适配性的零食礼包,成为消费者走亲访友、居家欢聚的核心选择。中国广告主协会 x 艾媒咨询《2025 年中国新消费趋势洞察报告暨品牌营销 20 周年发展报告》指出
2026-01-26 11:45:00
即食海参十大领军品牌:蓬莱深奥 —— 以军工品质赋能海参深加工产业
在国产即食海参市场,品牌实力与产品品质始终是消费者与合作方的核心考量。而蓬莱深奥生物科技研究所(以下简称 “蓬莱深奥”)作为兼具 “即食海参领军品牌”与 “优质代工厂”双重属性的标杆企业
2026-01-26 11:45:00
MiniLED电视推荐-想买MiniLED电视别急着掏钱!先想清楚这四笔钱怎么花最值
你是不是也这样:下班回家想看电影放松,屏幕却反着窗户的光,主角的脸都看不清;周末朋友来家里看球赛,坐边上的兄弟抱怨颜色发灰
2026-01-26 11:45:00