• 我的订阅
  • 科技

infini-attention:谷歌大内存机制

类别:科技 发布时间:2024-04-14 02:57:00 来源:浅语科技

谷歌大改Transformer,“无限”长度上下文来了。现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。

8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。

它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。

什么概念?

就是在内存大小不变的情况下,放进去114倍多的信息。好比一个存放100本书的图书馆,通过新技术能存储11400本书了。

这项最新成果立马引发学术圈关注,大佬纷纷围观。

加之最近DeepMind也改进了Transformer架构,使其可以动态分配计算资源,以此提高训练效率。

有人感慨,基于最近几个新进展,感觉大模型越来越像一个包含高度可替换、商品化组件的软件栈了。

infini-attention:谷歌大内存机制

引入压缩记忆

该论文核心提出了一种新机制Infini-attention。

它通过将压缩记忆(compressivememory)整合到线性注意力机制中,用来处理无限长上下文。

压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能减少内存占用和计算成本。

线性注意力机制不同于传统Transformer中的二次方复杂度注意力机制,它能通过更小的计算开销来检索和更新长期记忆。

在Infini-attention中,旧的KV状态({KV}s-1)被存储在压缩记忆中,而不是被丢弃。

通过将查询与压缩记忆中存储的键值进行匹配,模型就可以检索到相关的值。

PE表示位置嵌入,用于给模型提供序列中元素的位置信息。

infini-attention:谷歌大内存机制

对比来看Transformer-XL,它只缓存最后一段KV状态,在处理新的序列段时就会丢弃旧的键值对,所以它只能保留最近一段的上下文信息。

infini-attention:谷歌大内存机制

对比几种不同Transformer模型可处理上下文的长度和内存占用情况。

Infini-attention能在内存占用低的情况下,有效处理非常长的序列。

Infini-attention在训练后,分化出了两种不同类型的注意力头,它们协同处理长期和短期上下文信息。

专门化的头(Specializedheads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gatingscore)接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息。

混合头(Mixerheads):这些头的门控得分接近0.5,它们的作用是将当前的上下文信息和长期记忆内容聚合到单一的输出中。

infini-attention:谷歌大内存机制

研究团队将训练长度增加到100K,在Arxiv-math数据集上进行训练。

在长下文语言建模任务中,Infini-attention在保持低内存占用的同时,困惑度更低。

对比来看,同样情况下MemorizingTransformer存储参数所需的内存是Infini-attention的114倍。

消融实验比较了“线性”和“线性+增量”记忆两种模式,结果显示性能相当。

实验结果显示,即使在输入只有5K进行微调的情况下,Infini-Transformer可成功搞定1M长度(100万)的passkey检索任务。

在处理长达500K长度的书籍摘要任务时,Infini-Transformer达到最新SOTA。

Bard成员参与研究

该研究由谷歌团队带来。

其中一位作者(ManaalFaruqui)在Bard团队,领导研究Bard的模型质量、指令遵循等问题。

infini-attention:谷歌大内存机制

最近,DeepMind的一项工作也关注到了高效处理长序列数据上。他们提出了两个新的RNN模型,在高效处理长序列时还实现了和Transformer模型相当的性能和效率。

infini-attention:谷歌大内存机制

感觉到谷歌最近的研究重点之一就是长文本,论文在陆续公布。

网友觉得,很难了解哪些是真正开始推行使用的,哪些只是一些研究员心血来潮的成果。

不过想象一下,如果有一些初创公司专门做内存数据库,但是模型能已经能实现无限内存了,这可真是太有趣了。

infini-attention:谷歌大内存机制

论文地址:

https://arxiv.org/abs/2404.07143

参考链接:

[1]https://twitter.com/Joby_Fi/status/1778240236201386072

[2]https://twitter.com/omarsar0/status/1778480897198612839

[3]https://twitter.com/swyx/status/1778553757762252863

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-14 09:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要
2025-02-19 18:43:00
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...的Qwen2.5-Turbo已在阿里云百炼上线,该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字
2024-11-21 09:48:00
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...层,相比 Mamba 可将 KV 缓存减少 32 倍。例如,在 256K 令牌上下文环境中,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)
2024-10-16 13:34:00
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...每个单词(或 token)与文本中的每个单词进行比较来理解上下文,它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩展计算资源,模型推理速度就会变慢
2024-08-14 09:39:00
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...有效地捕获其关系。这种通过比较文本中每个token来理解上下文的方式,需要更多的计算能力和内存来处理不断增长的上下文窗口。如果资源没有相应扩展,推理速度会变慢,最终无法处理超
2024-08-14 09:43:00
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...任务中展现了广泛的适用性。模型只需快速微调就能适应上下文,可以无缝部署在各种场景中。 可扩展性:OpenCity展示了有希望的缩放定律,表明该模型有潜力在最小的额外训练或微调
2024-09-02 13:34:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅
2024-11-28 12:03:00
SEO 已死,LLMO 万岁
...型语言模型(LLM)提及你的业务。而本文将详细介绍的 上下文学习 是一种行之有效的 LLMO 技术。上下文学习技术可以诱导 ChatGPT 这样的 LLM 模型回答
2022-12-29 10:00:00
更多关于科技的资讯:
集萃智造产业化基地项目开工,开启规模化量产新篇章未来三年力争实现年产近万台智能机器人南报网讯(通讯员芦玲玲记者徐宁)记者昨天从江苏集萃智能制造技术研究所有限公司(以下简称“集萃智造”)获悉
2025-09-04 07:40:00
山东移动日照分公司携手山东鲜醇乳业打造5G智能工厂 全流程赋能乳业生产新标杆
鲁网9月3日讯在数字化浪潮推动传统产业转型升级的背景下,山东移动日照分公司助力山东鲜醇乳业有限公司成功入选《2025年5G工厂名录》
2025-09-03 17:12:00
当晚期肺癌患者仅需支付最低207元、最高千余元的保费,即可通过“穗新保”全额报销高达30万元的质子治疗费用,重燃高质量生活希望时
2025-09-03 17:13:00
山东移动日照分公司:数智转型,打造高端板材涂镀产业新标杆
鲁网9月3日讯日照市昱岚新材料有限公司招商引资项目总投资达 63 亿元,目标打造全国最具竞争力的马口铁生产基地。项目分三期建设
2025-09-03 17:14:00
短视频平台丰富了公众的日常生活,提供了公众所需的各类信息,近年来,越来越多的人通过短视频平台向公众传播医学知识,但这些内容并非全部真实可信
2025-09-03 21:24:00
夏末秋初求职盛宴,山东省人力资源市场喊你来“挑”工作啦!
金九银十求职季,山东省人力资源市场为广大求职者准备了一系列精彩纷呈的招聘活动,无论是刚踏出校园的应届生,还是寻求职业转型的职场人
2025-09-03 18:51:00
吉哒哒生炸鸡架盛唐荟店开业,凭差异化优势领跑行业
近日,炸鸡品类新势力——济南星瀚途旗下吉哒哒生炸鸡架盛唐荟店正式开业,持续引发市场关注。开业当日,现场食客络绎不绝,人气火爆
2025-09-03 18:57:00
豪米客鲜烤牛肉拌饭以特色引领韩式餐饮新潮流
当下餐饮行业竞争日趋白热化,同质化严重的赛道已难见增长红利,而那些能精准捕捉消费需求、构建独特记忆点的特色品类,正凭借差异化优势突围而出
2025-09-03 18:59:00
2025年十大品牌软骨素榜单正式出炉,经过对市场口碑、产品配方、科研背景、用户反馈及认证资质等多维度综合评估,以下五款氨糖软骨素产品脱颖而出
2025-09-03 17:10:00
技术驱动增长:巨星AI智能体系统助力巨星优选破解奶茶行业营销瓶颈
在数字经济迅猛发展的当下,人工智能技术正逐步成为企业提升运营效率、实现精准营销的核心驱动力。巨星优选积极引入先进的"巨星AI智能体"系统
2025-09-03 17:10:00
IFA2025开幕在即,海信AI技术引领未来生活方式变革
9月5日,一年一度的IFA德国柏林消费电子展即将开启。今年IFA以“创新、互联、可持续(Innovation,Connectivity
2025-09-03 11:18:00
外卖小票单印“霸总小说” 奶茶店被网友疯狂“催更”
近日,奶茶店因在外卖小票单上印有“霸总小说”内容而引发网友热议。网友晒出自己购买“茉莉奶白”的奶茶,奶茶小票上印有一段“霸总小说”
2025-09-03 14:26:00
伙伴收入同比增长208% 百度智能云“大模型行业合伙人计划”上新
近日,“2025 百度云智大会·渠道生态专题论坛”在北京举办。此前国务院印发《关于深入实施“人工智能+”行动的意见》指出
2025-09-03 14:44:00
2025《戈·局》炉边对话即将于杭州举行
9月16日,一场没有宏大口号、没有程式化发言的企业家对话,将在杭州钱塘江南岸隆重开启。它既非论坛,亦非峰会,而是一场名为《戈·局》的炉边对话
2025-09-03 14:46:00
Small Sciences Symposium圆满收官——Small 20周年庆典镌刻中国纳米“高光时刻”
9月1日,全球领先的出版机构约翰威立国际出版集团(Wiley)主办的第五届 Wiley ChinaNANO Small Sciences Symposium 在 划下圆满句点
2025-09-03 14:47:00