• 我的订阅
  • 财经

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么

类别:财经 发布时间:2025-02-19 18:43:00 来源:澎湃新闻

2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么

这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能力提供新的方向,实现将算法创新与硬件对齐的优化相结合,进行高效的长上下文建模。

DeepSeek在论文中介绍,NSA采用动态分层稀疏策略,将粗粒度标记压缩与细粒度标记选择相结合,以保持全局上下文感知和局部精度。通过两项关键创新推进稀疏注意力设计:第一,通过算术强度平衡算法设计实现了显着的加速,并针对现代硬件进行了实现优化。第二,支持端到端训练,在不牺牲模型性能的情况下减少预训练计算。

实验表明,使用 NSA 预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过了全注意力模型。同时,NSA在64k长度序列的解码、前向传播和后向传播过程中实现比全注意力机制显著的加速,验证其在整个模型生命周期中的效率。

“此次DeepSeek发布的论文,可以称为基石更新。”业内人士向澎湃新闻记者评论,此前的DeepSeek-R1的瓶颈在于输入上下文能力方面相对不足,此次更新正是解决了原先大模型文字处理的问题。从内容来看,NSA主要针对长上下文高速训练,在长上下文情况下,相比原先的结构有更慢的性能衰减,这导致长思维链的 COT 效果会更好,对于复杂数学推导非常有价值。

据业内人士分析,DeepSeek此次是剑指大模型最核心的注意力机制。Transformer架构是现有大部分大模型繁荣的基础,但其核心算法注意力机制存在先天问题:为了理解和生成,会阅读文本里的每个词,并拿它与其他所有词作比较,导致处理文本越长,技术就会越卡,甚至崩溃。

通过NSA新架构,和Transformer原先传统的注意力机制相比,准确率相同或更高,处理64k标记序列时速度可提高至11.6倍,且训练更高效,所需算力更少。

值得注意的是,此次论文作者中,梁文锋在作者排名中位列倒数第二。而第一作者是袁景阳(Jingyang Yuan)。据公开信息,袁景阳目前是北京大学硕士研究生,研究领域包括LLM和AI for Science,目前是DeepSeek的实习生,据袁景阳个人主页,他在去年参与7篇论文的撰写。

此前,在发布Grok 3同时,马斯克透露,Grok 3的计算能力是Grok 2的10倍以上,训练过程累计消耗20万张英伟达GPU。而梁文锋的训练思路似乎与马斯克截然相反,更关注如何在更少算力消耗下,达到更好的计算效果。

有趣的是,对于马斯克坚持大力出奇迹的思路,另一家国内大模型独角兽“月之暗面”几乎在同时提出挑战。

2月18日,就在DeepSeek论文发布当天,月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS(直译为“MoBA:面向长上下文大语言模型的块注意力混合方法”)》,提出了与NSA类似的稀疏注意力框架MoBA,并设计了一套可以自由切换全注意力和稀疏注意力机制的方式,为已有的全注意力模型更多的适配空间。

据介绍,MoBA是“一种将混合专家(MoE)原理应用于注意力机制的创新方法”,旨在提高长文本处理效率。经过Kimi平台验证,MoBA架构能将处理1M长文本的速度提升6.5倍,将处理10M长文本的速度提升16倍。

MoBA提升效率的关键手段在于仅关注部分键值。Kimi团队把完整的上下文划分成“块(block)”、让每个查询token自动关注最相关的KV(键值)块,从而实现长序列数据的高效处理,并提出一种新的top-k门控机制,无需额外训练参数,为每个查询token挑选出最相关的“块”,保证模型的注意力聚焦在包含最有用信息的“块”上。

Kimi团队表示,开展这项研究的原因在于,在传统注意力机制中,计算复杂度随着序列长度的增加而呈平方级增长,阻碍了模型对长序列的高效处理。MoBA架构能够轻松融入现有模型,不需要高昂的训练成本,并实现与全注意力模式的无缝切换。

国产AI竞赛正在日益加剧中。1月20日,中国AI初创公司深度求索(DeepSeek)推出大模型DeepSeek-R1。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。春节假期后,国内多个行业龙头公司均宣布接入DeepSeek。

2月8日,QuestMobile数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后在2月1日突破3000万大关,成为史上最快达成这一里程碑的应用。

DeepSeek的爆发正在重塑中国大模型行业,从过去的“烧钱换估值”转向关注技术性价比与商业化闭环。在这个日新月异的赛道,由DeepSeek引领的开源已成为大模型整体潮流,2月18日,阶跃星辰和吉利汽车联合宣布,将双方合作的阶跃两款Step系列多模态大模型向全球开发者开源。其中,包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-19 20:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...其主要内容是关于NSA(即Natively Sparse Attention,原生稀疏注意力)。与此同时,在论文署名中
2025-02-19 12:26:00
...中。这是继2025年3月,DeepSeek团队发布了关于“原生稀疏注意力”(NSA)的研究后,第二次在大模型训练核心架构上突破
2026-01-03 08:31:00
入选概率不及万分之二,阿里千问斩获顶级AI会议最佳论文
...是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响,业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步,将有力推动AI大模型技术的
2025-11-28 11:01:00
...运文解释,它运用了多种技术创新,如采用MLA(多头潜在注意力)架构,成功压缩了键值缓存;使用对偶流水线机制,通过设计流水线调度,让GPU算力和通信算力在训练中并行隐藏,成功减
2025-01-29 21:29:00
周伯文:通用大模型如何突破垂直行业场景?
...做减法AI科技评论:Transformer 模型的特别之处在于采用了注意力机制(Attention) 来建模文本,我们注意到您很早就开展了与AI注意力机制相关的研究
2023-06-26 11:39:00
...2.0”系列大模型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运
2024-06-03 14:07:00
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置
2024-08-14 09:43:00
MiniMax进化论:一群「偏执者」的破浪前行
...。也是在同一时期,在同行还普遍采用传统Transformer的自注意力计算机制时,MiniMax就已经开启了对混合注意力机制的探索
2025-07-02 13:31:00
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepS
2025-01-27 11:06:00
更多关于财经的资讯:
中金资本、湖州国资等成立私募基金,出资额100亿
近日,湖州中金启新股权投资合伙企业(有限合伙)成立,出资额100亿元,经营范围包含:以私募基金从事股权投资、投资管理、资产管理等活动。企查查股权穿透显示,该合伙企业由中金私募股权
2026-02-11 15:48:00
文科股份、佛山国资等新设先导产投合伙企业
近日,佛山建发先导产业投资合伙企业(有限合伙)成立,经营范围包含:以自有资金从事投资活动;创业投资(限投资未上市企业)。企查查股权穿透显示,该企业由佛山市建设发展集团有限公司、文
2026-02-11 15:48:00
今年机器人组团“上春晚”!2025年人形机器人相关专利申请近千项
据媒体报道,2月8日,中央广播电视总台《2026年春节联欢晚会》完成第四次彩排。在本届春晚筹备过程中,科技力量的呈现尤为瞩目
2026-02-11 16:00:00
海博思创在阿拉善盟成立工程技术新公司
近日,海博思创(阿拉善盟)工程技术有限公司成立,注册资本5000万元,经营范围包含:风电场相关装备销售;先进电力电子装置销售;电容器及其配套设备销售;蓄电池租赁等。企查查股权穿透
2026-02-11 16:00:00
王思聪持股企业成立餐饮管理公司
近日,北京与雾餐饮管理有限公司成立,法定代表人为许磊,经营范围包括餐饮管理、外卖递送服务、商业综合体管理服务等,由炫动(北京)网络有限公司
2026-02-11 16:00:00
猪葛亮食品公司更名
近日,东莞市猪葛亮食品有限公司发生工商变更,企业名称变更为东莞市亿亮食品有限公司。该公司成立于2020年,法定代表人为周瑜
2026-02-11 16:00:00
东方电气等在杭州成立驭能科技公司
近日,东方电气驭能科技(杭州)有限公司成立,法定代表人为雷凯,注册资本为3600万元,经营范围包含:变压器、整流器和电感器制造
2026-02-11 16:00:00
三安光电成立新公司,含集成电路设计业务
近日,台州安瑞光电有限公司成立,法定代表人为朱建明,注册资本为1000万元,经营范围包含:智能车载设备制造;照明器具制造
2026-02-11 16:00:00
岁序更替,春潮涌动。春节来临之际,银行人的脚步愈发匆忙。广发银行各地员工深入企业一线,走基层、访实情、解难题,面对面倾听诉求
2026-02-11 16:05:00
新年伊始,春意渐暖,一群特别的“小画家”悄悄拿起了画笔。他们是曾被广发希望慈善基金温柔守护的孤独症儿童,在新春来临之际
2026-02-11 16:06:00
中国电气装备集团在西藏成立新公司
近日,中国电气装备集团西藏有限公司成立,注册资本1亿元,经营范围包含:电力设施器材制造;电力行业高效节能技术研发;配电开关控制设备研发;合同能源管理;输配电及控制设备制造等。企查
2026-02-11 16:12:00
“十四五”期间,国内人身险业高质量发展向前迈出新的一大步。寿险头雁中国人寿保险股份有限公司(以下简称“中国人寿”)锚定经济减震器和社会稳定器功能发挥
2026-02-11 16:30:00
近日,富士胶片控股株式会社(以下简称"富士胶片集团")公布了截至2025年12月31日的2025财年第三季度财务报告。在2025财年(2025年4月1日-2026年3月31日)的前三季度
2026-02-11 11:20:00
助农年货大集启幕 济南农商银行金融专员一线赋能乡村振兴
近日,由济南市委组织部主办的济南“万人下乡、千村提升”工程特色农产品展销会暨第一书记助农年货大集在济南市奥体中心北广场热闹开集
2026-02-11 11:26:00
合众人寿河北分公司召开司庆特别晨会
2月3日,合众人寿河北分公司及全省各机构内外勤召开“驭新途”司庆特别晨会,庆祝合众人寿成立二十一周年。晨会上,全员学习了2026年负债端工作会议精神
2026-02-11 11:39:00