• 我的订阅
  • 科技

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

类别:科技 发布时间:2024-11-27 13:34:00 来源:新智元

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

【新智元导读】北京大学研究团队开发的FAN模型能有效捕捉数据中的周期性模式,相比传统模型在多项任务中表现出色,同时降低了参数量和计算量,增强了对周期性特征的建模能力,应用潜力广泛。

周期性现象广泛存在,深刻影响着人类社会和自然科学。作为最重要的基本特性之一,许多规律都显式或隐式地包含周期性,例如,天文学中的行星运动、气象学中的季节变化、生物学中的昼夜节律、经济学中的商业周期、物理学中的电磁波,以及数学运算和逻辑推理等。

因此,在许多任务和场景中,人们希望对周期进行建模,以便根据以往的经验进行推理。

尽管以 MLP 和 Transformer 为代表的基础模型已经取得了显著的成功,但是它们却在周期性建模方面存在潜在的缺陷。

即使面对简单的正弦函数,现有基础模型也难以理解其中的周期性规律,在外推时表现出完全失控的状态,未能有效捕捉到周期性现象的本质。

为此,北京大学李戈教授的团队提出了一种新型网络架构FAN(Fourier Analysis Networks)。通过引入傅里叶级数的思想,FAN能够将周期性信息直接嵌入网络的结构中,使模型更自然地捕捉和理解数据中的周期性模式。

实验表明,FAN不仅在周期性建模上的表现显著优于现有模型,而且在符号公式表示、时间序列预测和语言建模等实际任务中也同样表现出色,超过了Transformer等主流模型。

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

论文链接:https://arxiv.org/pdf/2410.02675.pdf

代码链接:https://github.com/YihongDong/FAN

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

图1 不同基础模型在其训练数据域内外对正弦函数的表现,其中x为标量

研究者认为,许多实际任务都显式或者隐式地包含潜在的周期性特征,良好的周期性建模对于提升模型在这些任务上的表现是必要的,而现有基础模型严重依赖数据驱动的优化方式,缺少明确的机制来理解数据中的根本原理。

FAN的意义在于,它提供了一种全新的范式来有效地建模周期性,能够无缝替换传统MLP,同时减少参数量和计算量,填补了当前基础模型在周期性建模上的缺陷,并展示出广泛的应用潜力。

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

图2 MLP Layer和FAN Layer的示例

本文的通讯作者是北京大学计算机学院长聘教授、教育部长江学者李戈。第一作者:董益宏,北京大学计算机学院22级博士生,曾在ISSTA、FSE、ACL、NeurIPS、TOSEM等 CCF-A类/SCI一区国际顶级会议和期刊上发表11篇学术论文。

FAN的实现细节

北大研究团队首先构建一个简单神经网络来建模傅里叶级数,然后在此基础上设计了FAN网络架构。

为构建一个简单的神经网络表示函数的傅里叶级数展开,我们可以将表示为:

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

其中是可学习参数,(I) 根据和通过定积分计算,(II) 和 (III) 是矩阵运算的等价形式,[·||·] 和 [·, ·] 分别表示沿第一维度和第二维度的连接。

为了充分利用深度学习的优势,我们可以堆叠上述网络

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

形成深度神经网络,其中第i层表示为。

因此,可以表示为:

其中表示左侧函数作用于右侧输入x,即。

然而,我们发现直接堆叠会导致模型的主要参数集中于学习角频率,从而忽略了傅里叶系数和的学习,如下所示:

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

其中定义为用于近似角频率,用于近似傅里叶系数。

因此,拟合傅里叶系数的能力与的深度无关,这是一个不理想的结果。

为了应对这一问题,研究团队根据以下原则设计了FAN:

1. FAN 表示傅里叶系数的能力应与其深度正相关;

2. 任何隐藏层的输出都可以通过后续层使用傅里叶级数来建模周期性。

第一个原则通过利用FAN的深度增强了其周期性建模的表现力,而第二个原则确保FAN中间层的特征可用于执行周期性建模。

假设我们将解耦为:

其中,

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

为了满足这两个原则,FAN的中间层输入需要同时使用和而不是依次应用它们。

最终,FAN 基于此设计,其FAN层定义如下:

其中是可学习参数,表示激活函数。

整个FAN定义为FAN Layer的堆叠:

其中,

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

FAN的性能表现

周期建模

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

图3 FAN在周期性建模中的表现与 MLP、KAN 和 Transformer 相比,其中绿线表示训练数据域内的测试数据,而蓝线表示训练数据域外的测试数据

图3展示了FAN和其他模型在周期性建模中的表现。结果表明,现有的神经网络(包括 MLP、KAN 和 Transformers)在建模周期性方面表现出明显的不足。尽管它们试图拟合这些周期函数,但其内在能力限制了它们在大范围周期性上的性能表现。

相比之下,FAN在所有这些周期性建模任务中都明显优于基线。更值得一提的是,FAN在训练数据域内和域外的测试数据上都表现得非常出色,表明它能够真正理解周期性的深刻原理并对其进行精准建模,而不仅仅是记住训练数据。

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

图4 不同模型在学习复杂周期函数任务上的训练和测试损失比较

研究团队还分析了不同模型在学习复杂周期函数任务上的训练过程,如图4所示,结果如下:

1. FAN在收敛速度和最终效果方面都远远超过其他模型;

2. 与FAN相比,FAN (Gated) 通常可以实现更快的收敛,但最终性能仍然相当;

3. 随着训练轮数的增加,虽然其他模型的训练损失变得稳定或逐渐减少,但它们的建模可能与测试数据的分布有很大差异,导致测试损失急剧增加。这一现象进一步证明了这些模型在捕捉周期性方面的缺陷。

符号公式表示

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

图5 不同模型在符号公式表示任务中不同参数量的表现

从不同模型应用于数学和物理学中四个常见函数的表现中可以观察到,虽然 KAN 在参数数量较少时能与FAN相媲美,但随着参数数量的增加,其性能会显著下降。

相反,随着参数数量的增加,FAN拟合这些函数始终优于其他基线,包括 MLP、KAN 和 Transformer,尽管这些函数中的许多只是部分周期性的或完全非周期性的。

这些结果表明,FAN不仅增强了对周期性的建模能力,同时也没有损害拟合非周期性函数的能力。

时间序列预测

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

如表2 所示,研究团队在四个公共数据集上比较了结合FAN的Transformer 和其他序列模型在时间序列预测任务上的表现。在大多数情况下,与 LSTM、Mamba 和标准 Transformer 相比,结合FAN和FAN(Gated)的Transformer 在这些任务上取得了最佳性能。

它们相对于标准 Transformer 的改进是显著的,平均相对改进范围为14.3%-15.0%的 MSE和7.6%-7.9%的MAE。

这些结果表明,在神经网络中加入显式周期模式编码可以提高实际应用中的时间序列预测性能。

语言建模

探究者报告了不同序列模型在四种情绪分析数据集上的性能比较,如表3所示。

可以发现,结合FAN和FAN(Gated)的Transformer与标准 Transformer 和其他序列模型(例如 LSTM 和 Mamba)相比表现出明显优越的性能,尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 数据集上的零样本跨领域表现。

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

结合FAN的 Transformer 在损失和准确度方面分别实现了最14.65%和8.50%的相对改进,同时将参数数量减少了约 14.16M。结果表明周期性建模在跨领域语言建模和情绪分析任务上具有提高有效性和泛化的潜力。

FAN的表达能力和应用范围

FAN在理论上具有与MLP相同的表达能力,因为它也遵循通用近似定理,这确保了其函数近似能力。不同的是,FAN通过明确纳入周期性,引入了重要的功能增强,这是传统MLP所不具备的。

FAN的这一设计,不仅全面继承了MLP的既有优势,还增强了其捕获数据周期性特征的能力。因此,FAN可以作为MLP的有力替代品。

当然,FAN的实用性不仅限于明确需要周期性建模的任务,在更广泛的应用中也展现出强大的适用性。研究团队通过一系列现实世界任务的实验证明,如符号公式表示、时间序列预测和语言建模等,FAN的表现明显优于MLP和其他基线模型。

事实上,许多看似与周期性无直接关联的机器学习任务,如数学运算和逻辑推理,实际上也可能隐藏着周期性。

如果神经网络缺乏针对周期性特征进行建模的能力,则可能会损害其学习效率。

从更深层次的角度来看,周期性不仅仅是一种数据特征,还反映了一种规律或知识,即允许抽象的规则和原理在不同上下文之间转移和重用。

总结来看,FAN与MLP相比,不仅增强了周期性建模能力,且参数量和计算量更少,有望成为基础模型的关键组成部分。

未来,北大研究团队将进一步扩大FAN的应用范围,增强其作为基础模型组件的表现,持续推动基础模型的技术进步与创新发展。

参考资料:

https://arxiv.org/pdf/2410.02675.pdf

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-27 14:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...团队新的基础模型OpenCity。OpenCity结合了Transformer架构和图神经网络,用以模拟交通数据中复杂的时空依赖关系
2024-09-02 13:34:00
如何让等变神经网络可解释性更强?试试将它分解成「简单表示」
神经网络是一种灵活且强大的函数近似方法。而许多应用都需要学习一个相对于某种对称性不变或等变的函数。图像识别便是一个典型示例 —— 当图像发生平移时
2024-08-24 09:31:00
A股又打破了一个规律
...,应当如何解读?中金认为,风险溢价的预测效力建立在周期性静态运行规律之上,即股债相对估值在固定区间内循环运行,相对估值差异较大时即出现均值回归。但在最近几年,风险溢价上行可能
2023-10-17 16:00:00
首次看见一种90年前预测的神奇晶体!
...据,实际上可能是由实验所使用的材料的固有缺陷或其他周期性子结构所造成的。因为电子有可能“卡在”缺陷附近,或被材料的周期性子结构所捕获,进而表现出一些有序的特征,但这些特征并不
2024-04-19 10:25:00
陕西润泽博泽申请注塑件表面质量检测专利,提高模型检测准确率
...训练周期内的损失函数值作为调控因子,结合正弦函数的周期性对融合系数进行修正,得到缺陷检测模型。实时输入表面图像,输出质量检测结果。本发明通过引入高斯先验信息和形状约束损失函数
2025-03-22 10:15:00
一枚血指纹,北大团队助力36年前命案破获!
...的“全自动”系统封举富的冷板凳一坐就是10年2013年,以神经网络为代表的人工智能技术快速发展他将研究十余年的指纹知识变成了一行行指令敲进了代码从算法上下功夫将计算机培养成指
2023-10-24 10:37:00
...,提高训练管理的科学性和高效性。训练调控阶段,基于神经网络动态反馈技术和信息网络智能处理技术,引入可视化智能预警及处理平台,对于检查环节发现的问题,快速以语音或图像形式响应,
2023-06-15 05:54:00
中国人寿副总裁:长周期考核能够鼓励保险资金发挥市场稳定器作用
...看,负债端的现金流相对稳定,但是资产端它会容易呈现周期性、趋势性、波动性的叠加。由于资产负债两端特征的差异和不匹配,加上会计规则的影响,会体现在利润表资产负债表的短期波动。“
2023-10-31 13:02:00
沉浸式观察失眠患者的一晚:双腿无处安放,凌晨1点起来揉腿,原来是因为……
...眠紊乱,包括入睡困难、睡眠维持困难、睡眠期或清醒期周期性肢体运动。该病可发生于任何年龄段,发病率随年龄增长而升高,女性患病率约为男性的2倍。可持续出现、间歇发作,有家族遗传性
2024-08-09 16:02:00
更多关于科技的资讯: