• 我的订阅
  • 科技

科学家为脉冲神经网络引入新架构,为超大模型奠定基础

类别:科技 发布时间:2024-03-18 10:41:00 来源:DeepTech深科技

神经形态计算是一种类脑计算范式,一般是指在神经形态芯片上运行脉冲神经网络(Spiking Neural Network,SNN)。

本质来讲,神经形态计算,是一种由算法驱动硬件的设计范式。凭借低功耗的优点,神经形态计算也被认为是替换传统 AI 的“潜力股”。

对神经形态计算的理解应当从系统层面展开,不应该孤立地只看算法、或者只看硬件。

而神经形态计算中的“类脑”,指的是脉冲神经元能够模拟生物神经元的结构和功能。

通过这种模拟:一方面神经形态计算具有仿生复杂时空动态,另一方面神经形态计算可以利用脉冲信号来传递信息。

前者,让脉冲神经元模型的表达能力在理论上高于基于传统人工神经网络(Artificial Neural Network,ANN)的人工神经元模型;后者,让脉冲神经元具有脉冲驱动的计算特征。

当脉冲神经网络运行在神经形态芯片上时,只有在输入脉冲信号的时候,才会触发稀疏计算。否则,神经元就会处于静息状态。因此,要想实现低功耗的神经形态,脉冲驱动是一个必不可少的要素。

目前,神经形态计算领域面临这样一个严峻的现实问题:相比传统的人工神经网络算法,脉冲神经网络算法在任务性能上远远不及前者,很难满足各种复杂场景的需求。

对于边缘计算场景来说,往往要满足低功耗、低时延的要求。而一旦解决脉冲神经网络在算法层面的性能问题,再结合神经形态芯片的优势,神经形态计算的优势将能得到极大凸显。

中国科学院自动化所李国齐研究员和团队认为,神经形态计算的性能潜力远远未被发掘。

例如,在神经网络架构方面,目前绝大多数神经形态计算的应用,都围绕脉冲卷积神经网络(Convolutional Neural Network,CNN)展开,当前的神经形态芯片也只能支持脉冲 CNN。

相比之下,传统深度学习早已借助 Transformer 架构,在各种任务

上取得了巨大突破。而直到该团队提出一系列 Spike-driven Transformer 模型之后,神经形态计算领域才将脉冲驱动范式融入 Transformer 架构。

科学家为脉冲神经网络引入新架构,为超大模型奠定基础

图 | 李国齐(来源:李国齐)

科学家为脉冲神经网络引入新架构,为超大模型奠定基础

脉冲神经网络和 Transformer,到底该怎样结合?

对于李国齐来说,围绕脉冲神经网络的工作,最早可以追溯到发表于 2018 年的工作。那时,他还在清华大学类脑计算中心施路平教授团队工作。

他表示:“施老师团队提出了替代梯度时空的反向传播算法,解决了脉冲神经网络领域基本的训练问题。”

但是,由于基础编程框架缺乏、二值脉冲不可导、深度网络脉冲退化等问题的存在,导致直到 2021 年之前脉冲神经网络最多也只有十几层。

如此之小的规模导致相比传统深度学习的性能而言,脉冲神经网络的性能远远落后于前者。后来,脉冲神经网络也开始朝着越来越深的方向发展。

比如说,2021 年李国齐团队在国际先进人工智能协会会议(Association for the Advancement of Artificial Intelligence,AAAI)上发表的论文,解决了脉冲神经网络的深层训练问题。

加入中国科学院自动化所之后,李国齐和北京大学田永鸿教授在 Science Advance 合作发表了关于脉冲神经网络开源训练框架 SpikingJelly 的论文。

这篇论文解决了领域内训练框架缺失的问题,极大降低了脉冲神经网络的学习门槛。

与此同时,李国齐团队和田永鸿团队还分别提出两种不同残差深度的脉冲网络,目前已经成为领域内的通用残差架构。

这两种架构能让脉冲神经网络做到几百层的深度,而且能够避免脉冲退化的问题,解决了大规模脉冲神经网络训练在深度和规模上的技术瓶颈。

虽然脉冲神经网络与人工神经网络之间的性能间隙已经被极大缩小,但是这还远远不够。Transformer 架构是深度学习的里程碑,也引起了脉冲神经网络领域内学者们的兴趣。

大约从 2022 年开始,脉冲 Transformer 的相关工作陆续面世。这些研究基本都是将 Transformer 架构中的一部分人工神经元,替换成脉冲神经元。

一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。

这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。

于是,课题组提出这样一个问题:“脉冲神经网络和 Transformer,究竟该以怎样的方式结合,才能同时汲取二者的优势?”

经过反复思考和不断讨论,课题组最终选择“脉冲驱动自注意力算子”作为问题的突破口。

原因在于:目前脉冲神经网络领域内的脉冲驱动算子,还只有卷积和全连接这两种。

而自注意力机制是 Transformer 成功的关键,那么能否把自注意力机制改为脉冲驱动?

确定这个思路之后,他们进行了反复实验,最终设计出一些可以正常工作的脉冲驱动自注意力算子。

结果发现:脉冲驱动自注意力算子拥有许多优良特性,比如天然就是线性算子以及稀疏运算等。

当脉冲驱动 Transformer 可以正常工作以后,他们试图通过改进架构来进一步提升性能。

但是,Transformer 架构的变体太多,甚至令人眼花缭乱。

于是,他们开始思考:能否设计一种脉冲神经网络的 meta 架构?这样一来,脉冲神经网络与人工神经网络在架构上的差距,立马就能被大大缩减。

后来,该团队将这一系列工作主要分为两步:

第一步:提出脉冲驱动自注意力算子。这也是脉冲神经网络领域的第三类算子,借此能让整个 Spike-driven Transformer 中只有稀疏加法。

第二步,探索脉冲神经网络的 meta 架构。通过此,可以缩小脉冲神经网络和传统人工神经网络在架构设计上的间隙。

完成上述步骤之后,他们为脉冲神经网络领域成功引入了新算子和新架构,让神经形态计算在拥有低能耗优势的同时,任务性能也能迈上一个台阶。

课题组相信预计在两年之内,继续沿着这个方向进展的话,脉冲神经网络的性能将完全可以和人工神经网络比肩,并且前者的能效优势将更加突出。

在当前比较主流的视觉任务、自然语言处理任务、生成式任务上,假如神经形态计算可以在算法层面上解决性能瓶颈,一定会启发基于新脉冲算子和新脉冲网络架构的神经形态芯片的设计。同时,对于低功耗人工智能的实现也具有重要意义。

不久之前,关于上述研究的相关论文以《脉冲驱动 Transformer V2:元脉冲神经网络架构启发下一代神经形态芯片设计》(Spike-driven Transformer V2: Meta Spiking Neural Network Architecture Inspiring the Design of Next-generation Neuromorphic Chips)为题收录于 2024 国际表征学习大会(ICLR 2024,International Conference on Learning Representations 2024)上。

中国科学院自动化所助理研究员姚满为论文第一作者,李国齐研究员为通讯作者。

科学家为脉冲神经网络引入新架构,为超大模型奠定基础

(来源:ICLR2024)

一方面,本次成果可被用于边缘神经形态计算场景,例如采取“神经形态视觉+神经形态计算”的组合。

这里的神经形态视觉,指的是通过动态视觉传感器(Dynamic Vision Sensor,DVS)来感知视觉场景中的亮度变化,进而只输出异步稀疏事件流的类眼仿生感知范式。

对于神经形态计算来说,它天然具有事件驱动计算的特性,所以非常适合处理这种稀疏事件流。

最近,该团队还与一家类脑初创公司合作,将脉冲神经网络部署到异步感算一体芯片。

芯片处理器部分的静息功耗只有 0.42mW,在典型神经形态视觉任务场景中的功耗也在 10mW 以下。

这让该款芯片具有“永远在线(always-on)”的特性,在一些边缘低功耗计算场景中具有显著优势。

如果能将 Spike-driven Transformer 架构融入到异步类脑芯片中,它不仅能继续保持低功耗的特性。同时,随着模型表达能力的提升,还能被用于更多场景之中。

另一方面,本次成果为基于神经形态的超大规模网络设计提供了技术支撑。

目前,大多数基于人工神经网络的大模型,都是基于 Transformer 架构设计而来。而本次工作将脉冲驱动范式融入 Transformer 架构,带来了纯加法的 Transformer。

同时,本次所设计的算子与输入 token 个数以及特征维度都是线性的。因此模型规模越大,模型的能耗优势也就越明显。

众所周知,目前人工智能已经迎来大模型时代,大模型也有望成为未来人类社会的基础服务设施。

但是,随着用户量和使用频次的增长,AI 的高能耗问题将成为不容忽视的问题。

在这种背景之下,融合类脑时空动态的新一代线性脉冲神经网络架构的探索,就显得尤为重要。这也意味着本次成果可以为低功耗类脑脉冲大模型提供技术支撑。

科学家为脉冲神经网络引入新架构,为超大模型奠定基础

(来源:ICLR2024)

科学家为脉冲神经网络引入新架构,为超大模型奠定基础

预计神经形态计算领域将迎来大发展

一路走来,李国齐深感不易。他说:“无论对于行外人、还是对于行内人,脉冲神经网络领域其实一直都饱受质疑。甚至我们组的部分同学也不是很有信心,因为他们经常会看到网友对于这一方向的质疑。”

对此,他也表示理解。尽管脉冲神经网络拥有类脑、低功耗等优势,但是这些优势只能在系统层面有所体现。

如前所述,相比已经成熟的人工神经网络,脉冲神经网络在各个方面仍然存在一定差距,因此脉冲神经网络领域到底能够走向何方,一直不够明朗。

好在这几年脉冲神经网络领域已经迎来了长足发展,他对于这一领域的信心也越来越足。

其表示:“我个人对神经形态计算领域的发展呈乐观态度,预计最近几年神经形态计算领域将迎来大发展。”

尤其是随着大模型时代的到来,AI 想要成为人类社会运行的底层设施,就不能忽视巨大的能耗问题。

因此,他和团队非常希望本次成果能够推进脉冲神经网络走向实际应用,为设计下一代神经形态芯片带来启发。

总体来说,神经形态计算领域内还存着诸多需要攻克的难题,这需要整个领域共同的努力。

而基于本次成果,他们将继续围绕如下几个方面开展工作:

一是实现更大规模的脉冲神经网络模型。由于脉冲神经网络的时空动态复杂,因此比人工神经网络更难以训练,这就需要设计新的训练方法,来实现高效的训练。

二是把脉冲神经网络推向更多的任务类型。本次工作主要围绕计算机视觉任务展开,未来他们还想尝试将所设计的结构,用于更多的任务上,比如长时序任务等。

三是提出基于脉冲神经网络的类脑脉冲大模型架构。可以预见的是,这将是一项艰巨的任务,需要在训练速度、架构设计、模型规模、任务性能、长距依赖关系建模等方面,让目前的脉冲神经网络取得系统性的突破。

四是设计适配类脑脉冲大模型的硬件计算架构。眼下,围绕本次工作的硬件实现,该团队已经展开了一些探索。

如果在硬件上可以实现高效的脉冲驱动自注意力算子,再结合大规模脉冲神经网络的稀疏计算特性,必将实现更多的功能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-18 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...也会令人惊讶。别看现在的类脑计算机是个“大块头”,科学家们表示,随着类脑芯片及其他硬件的不断迭代升级,体积缩小将指日可待。未来,类脑计算机或将植入手机、机器人,产生新的智能服
2023-10-22 07:10:00
...:机器学习与人类价值观》一书的序言中讲述了人工智能神经网络概念的开端。人们已经知道神经元会因为一个激活阈值而放电或不放电。克里斯蒂安解释说:“如果对神经元的输入总和超过这个激
2023-01-22 19:57:00
用硅模拟人脑,进度条走到了1/80
...PU和GPU架构快50倍,同时能耗降低了100倍。 运行传统深度神经网络时,INT8精度运算的能效比达到了15 TOPS/W
2024-05-30 17:13:00
我国科学家在类脑脉冲神经网络领域取得新进展
...演化策略,助力研发更具生物合理性和高效性的类脑脉冲神经网络。这一研究近日在国际期刊《美国国家科学院院刊》(PNAS)上发表。据介绍,在生物神经系统中,不同类型的神经元能够自组
2023-09-27 17:11:00
全球首台!仿人脑超算“深南”即将面世,突破摩尔定律
... (GPU) 和多核中央处理单元 (CPU) 在标准计算机上模拟脉冲神经网络(Spiking Neural Networks)速度太慢且耗电
2024-01-02 15:06:00
科学家曾发布惊人理论:宇宙或许是个巨大的神经网络,是活的吗?
...骇俗的论文:我们所生活的宇宙,很可能是一个巨大的“神经网络”。宇宙不仅在结构上和我们的大脑神经有诸多相似之处,而且宇宙也很可能通过某种类似大脑的机制在“思考”。长期以来,我们
2024-12-03 13:41:00
自适应神经连接光子处理器问世
...耦合相变材料制成的功能人工神经元。研究人员训练这个神经网络根据元音频率来区分德语和英语文本。图片来源:《科学进展》 科技日报北京10月25日电 (记者张梦然)德国明斯特大学、
2023-10-26 01:26:00
Intel大型神经拟态系统Hala Point集成11.5亿神经元:可比人脑快200倍
...oihi 2应用了众多类脑计算原理,如异步、基于事件的脉冲神经网络(SNN)、存算一体不断变化的稀疏连接,而且神经元之间能够直接通信,不需要绕过内存。尤其是在新兴的小规模边缘
2024-04-19 09:47:00
未来无人机像飞鸟一样轻捷智能
...来控制自主飞行。与目前在GPU(图形芯片)上运行的深度神经网络相比,动物大脑使用的数据和能量更少。因此,神经形态处理器非常适合小型无人机,完全不需要笨重的大型硬件和电池。在飞
2024-05-30 01:58:00
更多关于科技的资讯:
中新经纬11月1日电 题:零首付租赁,机器人“普惠时代”来了作者 王喜文 北京华夏工联网智能技术研究院院长近期,智元机器人联合飞阔科技
2025-11-02 10:54:00
中新经纬11月1日电 (袁媛)近期,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称《建议》)发布
2025-11-02 10:58:00
鸿蒙电脑版微信强势升级:40+项功能释放办公社交新势能
作为超10亿人使用的国民级社交应用,微信深度适配鸿蒙电脑并不断进行版本更新。本次更新,鸿蒙电脑版微信一次性推出40+项实用功能
2025-11-02 14:26:00
正雅齿科与士卓曼集团宣布建立战略合作伙伴关系。此次合作将整合两家集团的核心优势,以更高的效率和速度推动全球口腔健康市场的增长
2025-11-02 14:26:00
京东服饰联合天纺标发布《新舒适内衣》团体标准 共建行业品质新生态
10月31日,由京东服饰与天纺标检测认证股份有限公司联合主办的“中国内衣行业高品质供应链峰会暨京东服饰&天纺标联合发布会”在天津成功举办
2025-11-02 14:26:00
华为擎云 W515y登顶自主创新性能榜 引领自主创新终端从可用迈向好用
在全球科技格局深刻演变、国际形势日趋复杂的背景下,自主创新产业正加速从可用向好用的真替真用阶段迈进。这不仅是技术发展的必然要求
2025-11-02 14:28:00
赛力斯2025前三季净利润超53亿元 盈利能力持续增强
10月30日,赛力斯披露了2025年三季报,以亮眼的经营表现和持续攀升的交付数据,再次印证其在中国新能源豪华车市场的领跑地位
2025-11-02 14:29:00
雄安人工智能算力调度平台正式上线运行
中国雄安官网11月1日电近日,雄安人工智能算力调度平台在雄安城市计算中心正式部署完成并投入运行,标志着雄安新区在构建集约高效
2025-11-02 18:03:00
中国轻奢美护品牌黎科世亮相巴黎设计周,以生物科技融合感官美学
近日,中国轻奢美护品牌SENSLUX(黎科世)凭借其融合生物科技与感官美学的独特理念,在2025年9月举办的巴黎设计周中国创新馆中精彩亮相
2025-11-02 21:50:00
AI盛宴启幕!“科大讯飞1024科博展”燃动合肥
大皖新闻讯 11月2日,第八届世界声博会暨2025科大讯飞1024全球开发者节科博展在合肥体育中心盛大启幕。从萌趣幼教机器人到智能健康助手
2025-11-02 22:42:00
走进院士专家工作站系列报道丨专家工作站“破局” 双兴智能实现豆类收获“芯”突破
编者按:科技是第一生产力,人才是第一资源。从田间地头到生产车间,从技术瓶颈到产业升级,十堰市科协主动作为,当好“科技红娘”
2025-11-02 20:13:00
英语培训机构教务系统高适配推荐:外教管理 + 分级排课 + 学员约课!
现代英语培训机构的高效运转,离不开专业教务系统的有力支撑。一套设计科学的英语培训机构教务管理系统,如同机构的智能中枢,将教学管理
2025-11-02 18:46:00
日前,位于山西转型综改示范区学府总部经济园区的医学影像数据人工智能大模型产业发展项目进入试运行阶段。目前已完成平台建设和医院对接
2025-11-02 18:06:00
□南京日报/紫金山新闻记者张甜甜 通讯员夏俊林娜10月31日,南京市统计局、国家统计局南京调查队发布南京经济“三季报”
2025-11-01 09:44:00
上海虹桥医院癫痫专病诊疗新高度:个性化方案,全程化守护
癫痫发作的不可预测性及其对记忆、情绪、社交、学业与工作等方面的深远影响,构成了广大患者面临的核心挑战。诊断的复杂、治疗方案的普适性困境以及持续管理的缺失
2025-11-01 10:05:00