我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

infini-attention：谷歌大内存机制

类别：科技发布时间：2024-04-14 02:57:00 来源：浅语科技

谷歌大改Transformer，“无限”长度上下文来了。现在，1B大模型上下文长度可扩展到1M（100万token，大约相当于10部小说），并能完成Passkey检索任务。

8B大模型在500K上下文长度的书籍摘要任务中，拿下最新SOTA。这就是谷歌最新提出的 Infini-attention机制（无限注意力）。

它能让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现 114倍压缩比。

什么概念？

就是在内存大小不变的情况下，放进去114倍多的信息。好比一个存放100本书的图书馆，通过新技术能存储11400本书了。

这项最新成果立马引发学术圈关注，大佬纷纷围观。

加之最近DeepMind也改进了Transformer架构，使其可以动态分配计算资源，以此提高训练效率。

有人感慨，基于最近几个新进展，感觉大模型越来越像一个包含高度可替换、商品化组件的软件栈了。

引入压缩记忆

该论文核心提出了一种新机制Infini-attention。

它通过将压缩记忆（compressivememory）整合到线性注意力机制中，用来处理无限长上下文。

压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息，而不是随着输入序列长度的增加而增加参数量，能减少内存占用和计算成本。

线性注意力机制不同于传统Transformer中的二次方复杂度注意力机制，它能通过更小的计算开销来检索和更新长期记忆。

在Infini-attention中，旧的KV状态（{KV}s-1）被存储在压缩记忆中，而不是被丢弃。

通过将查询与压缩记忆中存储的键值进行匹配，模型就可以检索到相关的值。

PE表示位置嵌入，用于给模型提供序列中元素的位置信息。

对比来看Transformer-XL，它只缓存最后一段KV状态，在处理新的序列段时就会丢弃旧的键值对，所以它只能保留最近一段的上下文信息。

对比几种不同Transformer模型可处理上下文的长度和内存占用情况。

Infini-attention能在内存占用低的情况下，有效处理非常长的序列。

Infini-attention在训练后，分化出了两种不同类型的注意力头，它们协同处理长期和短期上下文信息。

专门化的头（Specializedheads）：这些头在训练过程中学习到了特定的功能，它们的门控得分（gatingscore）接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息，要么从压缩记忆中检索信息。

混合头（Mixerheads）：这些头的门控得分接近0.5，它们的作用是将当前的上下文信息和长期记忆内容聚合到单一的输出中。

研究团队将训练长度增加到100K，在Arxiv-math数据集上进行训练。

在长下文语言建模任务中，Infini-attention在保持低内存占用的同时，困惑度更低。

对比来看，同样情况下MemorizingTransformer存储参数所需的内存是Infini-attention的114倍。

消融实验比较了“线性”和“线性+增量”记忆两种模式，结果显示性能相当。

实验结果显示，即使在输入只有5K进行微调的情况下，Infini-Transformer可成功搞定1M长度（100万）的passkey检索任务。

在处理长达500K长度的书籍摘要任务时，Infini-Transformer达到最新SOTA。

Bard成员参与研究

该研究由谷歌团队带来。

其中一位作者（ManaalFaruqui）在Bard团队，领导研究Bard的模型质量、指令遵循等问题。

最近，DeepMind的一项工作也关注到了高效处理长序列数据上。他们提出了两个新的RNN模型，在高效处理长序列时还实现了和Transformer模型相当的性能和效率。

感觉到谷歌最近的研究重点之一就是长文本，论文在陆续公布。

网友觉得，很难了解哪些是真正开始推行使用的，哪些只是一些研究员心血来潮的成果。

不过想象一下，如果有一些初创公司专门做内存数据库，但是模型能已经能实现无限内存了，这可真是太有趣了。

论文地址：

https://arxiv.org/abs/2404.07143

参考链接：

[1]https://twitter.com/Joby_Fi/status/1778240236201386072

[2]https://twitter.com/omarsar0/status/1778480897198612839

[3]https://twitter.com/swyx/status/1778553757762252863

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-04-14 09:45:04

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于大内,机制,上下文,模型,处理,上下的资讯：

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

...于NSA(Natively Sparse Attention，原生稀疏注意力)。据DeepSeek，上下文建模对于下一代语言模型至关重要

2025-02-19 18:43:00

阿里云百炼上线Qwen2.5-Turbo模型，可支持100万

...的Qwen2.5-Turbo已在阿里云百炼上线，该模型支持100万超长上下文，相当于100万个英文单词或150万个汉字

2024-11-21 09:48:00

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...层，相比 Mamba 可将 KV 缓存减少 32 倍。例如，在 256K 令牌上下文环境中，MixCon 仍能保持较小的 KV 缓存优势（如表 1 所示）

2024-10-16 13:34:00

非Transformer架构站起来了!首个纯无注意力大模型,

...每个单词（或 token）与文本中的每个单词进行比较来理解上下文，它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩展计算资源，模型推理速度就会变慢

2024-08-14 09:39:00

Mamba再次挑战霸主Transformer！首个通用Mam

...有效地捕获其关系。这种通过比较文本中每个token来理解上下文的方式，需要更多的计算能力和内存来处理不断增长的上下文窗口。如果资源没有相应扩展，推理速度会变慢，最终无法处理超

2024-08-14 09:43:00

OpenCity大模型预测交通路况，零样本下表现出色，来自港

...任务中展现了广泛的适用性。模型只需快速微调就能适应上下文，可以无缝部署在各种场景中。可扩展性：OpenCity展示了有希望的缩放定律，表明该模型有潜力在最小的额外训练或微调

2024-09-02 13:34:00

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，

2024-08-22 09:51:00

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，M

【新智元导读】RNN模型在长上下文中表现不佳？近日，来自清华的研究团队对此进行了深入的实验分析，结果表明：不是RNN的锅

2024-11-28 12:03:00

SEO 已死，LLMO 万岁

...型语言模型（LLM）提及你的业务。而本文将详细介绍的上下文学习是一种行之有效的 LLMO 技术。上下文学习技术可以诱导 ChatGPT 这样的 LLM 模型回答

2022-12-29 10:00:00

更多关于科技的资讯：

DCF智能商城快速发展中普通人应该这样玩

AI 早不是实验室里的 “黑科技”，已经走进咱们的日常生活，像 DCF 智能商城就是用 “AI + 购物” 让大家得实惠

2025-10-26 20:24:00

2025中国GEO服务商深度测评：技术护城河、垂直行业解决方

据IDC与《2025中国生成式AI搜索生态白皮书》联合数据显示，截至2025年第三季度，中国GEO服务市场规模已达220亿元

2025-10-25 21:09:00

周一围与博斯绅威共赴“轻装之约”，解锁网球生活新方式

金秋济南，共赴网球生活时光。10月25日下午，博斯绅威携品牌体验官、著名演员周一围先生，在济南银座商城举办了一场主题为“轻装上阵

2025-10-26 12:28:00

曹县汉服“遇上”拼多多：95后的创业翻盘记

鲁网10月24日讯曹县，素有“中国汉服产业重镇”之称，曾见证无数小微创业者在行业竞争中艰难求索。对许多创业者而言，汉服市场度过初期蓝海阶段后

2025-10-24 14:29:00

突破光谱检测瓶颈！中国计量大学本科生团队研制高分辨率光谱仪

通讯员：吴瑞鹏何秋阳近日，第十九届“挑战杯”全国大学生课外学术科技作品竞赛正火热备赛中，全国高校参赛队伍蓄势待发。中国计量大学光学与电子科技学院本科生团队项目——“基于微反射镜阵列的高分辨率光谱仪”

2025-10-24 15:02:00

开普勒机器人登陆IROS 2025 以开放平台携手全球开发者

10月19日至25日，全球机器人领域两大顶级国际会议之一的2025年IEEE/RSJ智能机器人与系统国际会议（IROS 2025）在杭州隆重举行

2025-10-24 15:02:00

蓝月亮：用十二年为洁净艺术种下一棵“树”

10月23日，第十七届国际大学生暨青年艺术博览会（简称：大艺博）开幕。在武汉东部的中国光谷科技会展中心10000平方米的专业展馆内

2025-10-24 15:14:00

京东工业与南方电网供应链集团签署战略合作以数智技术驱动供应

10月20日，京东工业与南方电网供应链集团在广州正式签署战略合作协议，双方相关负责人出席签约仪式。此次合作标志着京东集团与南方电网在供应链领域的协作迈入全新阶段

2025-10-24 15:23:00

从OS到AI OS：荣耀MagicOS 10定义AI OS新

2025年10月23日，荣耀全球开发者大会暨AI终端生态大会在深圳坪山燕子湖国际会展中心隆重举行。本次大会系统阐释了MagicOS 10的品牌战略与发展路径

2025-10-24 15:32:00

最后窗口期！2025FHC上海环球食品展免费领票即将截止

2025FHC上海环球食品展已进入开幕倒计时！这场被誉为“全球食饮贸易超级接口”的盛会，已成为零售买家囤货、拓品的关键“战场”—20万㎡展出面积

2025-10-24 15:47:00

K90定价后引热议闪电降价，雷军：标准版12GB+512GB

2025年10月23日的红米K90发布会后，12GB+512GB版本原定价为3199元，但因用户反馈该版本与其他配置差价过大

2025-10-24 15:57:00

iPhone 17系列首批用户反应褪色？苹果官方客服回应

近日，部分苹果 iPhone 17 Pro 及 iPhone 17 Pro Max 的首批用户在社交平台反映，其设备遭遇了机身褪色问题

2025-10-24 15:59:00

阿里夸克AI眼镜开启预售体验者：轻若无物，稳如长在脸上“看

阿里巴巴首款自研AI眼镜——夸克AI眼镜24日0时在夸克智能设备天猫旗舰店开启预售。88VIP会员实际到手价为3699元

2025-10-24 16:35:00

石家庄市桥西区税务局精准服务新办纳税人

河北新闻网讯（梁轩轩）“原以为开业办税很繁琐，没想到这么简单！”近日，石家庄市桥西区律吕五金产品商行法人柴浩在桥西区税务局办税大厅完成税务申报后

2025-10-24 16:59:00

瑞众人寿河北分公司举办“养老规划线下体验日”活动

近日，瑞众人寿河北分公司在保定举办了2025年嘉年华客服节系列活动之“养老规划线下体验日”活动，通过创新融合中医药文化

2025-10-24 17:06:00

头条订阅服务

infini-attention：谷歌大内存机制