• 我的订阅
  • 科技

DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目

类别:科技 发布时间:2025-02-19 12:26:00 来源:浅语科技

快科技2月19日消息,近日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,其主要内容是关于NSA(即Natively Sparse Attention,原生稀疏注意力)。

与此同时,在论文署名中,第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。

DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目

根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。

据了解,NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。

同时,NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。

它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。

DeepSeek团队表示,稀疏注意力为提高效率同时保持模型能力,提供了一个有前景的方向。

公开资料显示,NSA(即Natively Sparse Attention,原生稀疏注意力)是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

它专为长文本训练与推理设计,能够利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现。

DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目

【本文结束】如需转载请务必注明出处:快科技

责任编辑:秋白

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-19 14:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv
2025-02-19 18:43:00
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
...epSeek。他们的总部位于杭州,是“杭州四小龙”的代表,创始人梁文锋毕业于浙大,前不久刚被国务院总理李强接见。中国的大模型已经追上美国了?故事还得追溯到一个月前,1月23日
2025-01-28 07:53:00
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepS
2025-01-27 11:06:00
...集。2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,记者注意到,在这篇论文署名中,DeepSeek创始人梁文锋也作为共创在列
2025-02-23 16:04:00
浙大这本AI狂热分子们编写的免费电子书,火了
...学院及相关专业的名称,频繁出现在公众视野。深度探索创始人梁文锋本硕就读于信息与电子工程学院;云深处科技创始人朱秋国是浙大校友,也是控制科学与工程学院副教授;研发出全球最快四足
2025-02-27 21:50:00
年度生成式AI大会上海站公布最新嘉宾,报名进入最后阶段
...高端对话《大模型时代,资本市场的新风向》。枫清科技创始人兼CEO高雪峰、光羽芯辰创始人兼董事长周强、北电数智智算云负责人郭文、中昊芯英芯片软件栈负责人朱国梁、声网生成式AI产
2024-11-26 09:38:00
勇攀创新高峰 杭州成果3个月内再登《自然》杂志封面
...元,以“静待花开”的耐心陪跑每一个创新想法。据Rokid创始人祝铭明回忆,2023年,Rokid申报余杭区300万元的补贴
2025-12-17 07:58:00
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...测试。然而,Codeforces 的主办方担心的是另一件事。竞赛创始人 Mike Mirzayanov 为此特地制定了一条新规
2024-09-18 09:49:00
杭州四小龙:闪耀的“东方神秘力量”
...科创大走廊走访的片段,不到3分钟的时间里,游戏科学创始人冯骥和《黑神话:悟空》,Rokid创始人祝铭明和他们最新发布的Rokid Glasses AI眼镜纷纷入镜
2025-01-07 11:42:00
更多关于科技的资讯:
12月,王力宏成都演唱会上,六台银色机器人伴随音乐节拍整齐划一地挥臂、踢腿、转身,然后在歌曲高潮段落完成一组高难度空翻
2025-12-31 08:08:00
今年以来,邮储银行济南市分行紧紧围绕小微企业和实体经济发展需求,以金融服务精准赋能区域市场主体,通过“产品攻坚+服务深耕”双轮驱动模式
2025-12-31 08:20:00
好哒与尚米店双强联动 数字化服务赋能实体经营新发展
2025年12月17日,深耕商户服务的标杆平台好哒与专注零售餐饮数字化领域的尚米店军师正式达成深度战略合作。此次双方强强联合
2025-12-31 08:22:00
2025 中国科技创新观察:引领全球、赋能产业、普惠民生
即将结束的2025年,无疑是“中国创造”引爆全球的里程碑。伴舞机器人的爆火并不是孤例。这一年,中国的科技创新不再局限于“卡脖子” 技术的单点突破
2025-12-31 08:26:00
浙江日报杭州12月30日讯 (记者 谢丹颖) 记者30日从天目山实验室获悉,实验室研制的600公斤级智能重载无人直升机日前首飞成功
2025-12-31 09:09:00
河南“智”造,“味”你而来丨了不起的河南智造②
【编者按】当厚重中原遇上智慧创新,会擦出怎样的火花?黄河之畔,钢铁与芯片共舞,机械臂与大数据齐鸣,一场“智造交响曲 ”正在上演
2025-12-31 09:14:00
鲁网12月31日讯近日,崂山区召开“产业链上的崂山好品牌”系列现场媒体见面会——智能家电产业链专场,记者从会上了解到,崂山区围绕智能服务型家电与可穿戴智能设备两大赛道
2025-12-31 10:49:00
在鲁西平原的坐标系里,一场关于发展的青春演算正在进行。当“00后”创业者用代码重构传统工厂,当返乡青年用直播间刷新农产品产值
2025-12-31 09:34:00
近期,工业和信息化部成立人形机器人与具身智能标准化技术委员会(下称“标委会”)。标委会的成立是发挥标准引领作用,加强高质量标准供给
2025-12-31 10:15:00
为建设“人工智能第一城”注入新动能杭州日报讯 杭州正加快构建场景驱动的AI产业基金,为人工智能产业发展注入全新动力。近日
2025-12-31 07:07:00
单个项目最高补助5000万元每日商报讯 用“意念”操控机械臂帮助瘫痪患者重获行动能力,以人脑为蓝本打造超低功耗芯片处理复杂任务……这些曾只存在于科幻作品中的场景
2025-12-31 07:37:00
日复一日,年复一年,新年的脚步已悄然叩响门环,无论你我是否整理好行囊。这一年的时光,有多少已从指缝间不经意溜走——被闹钟唤醒的清晨
2025-12-31 07:38:00
“现代化城市雄安探路”系列报道(五):数字孪生 创新之城
数字孪生 创新之城——“现代化城市雄安探路”系列报道⑤日前拍摄的雄安城市计算中心。它是雄安数字城市建设的核心枢纽。 河北日报记者 刘光昱摄建筑通过数字建模
2025-12-31 07:42:00
■王鑫摘要:在数字化转型的背景下,企业财务管理正面临由传统核算型向智能决策型的系统性变革。本文从数字化发展的实际需求出发
2025-12-31 04:48:00
1元租机器人,线下开首店:人形机器人打响大众化“发令枪”
大皖新闻讯 2025年的最后两天,中国的人形机器人产业以两件标志性事件,为即将到来的2026年按下了商业化加速键。一边是擎天租以“1元闪租”的体验价格将可以“打太极”的人形机器人推向大众市场
2025-12-30 21:48:00