• 我的订阅
  • 科技

梁文锋发表署名论文 提出大模型训练新架构

类别:科技 发布时间:2026-01-03 08:31:00 来源:杭州网

在2025年的最后一天,当大多数人准备迎接新年时,DeepSeek团队向学术社区提交了一篇技术论文。这篇论文迅速在人工智能领域引起关注。论文的标题为《mHC:流形约束超连接》,由谢振达、魏毅轩、曹焕奇等研究人员共同完成,DeepSeek创始人梁文锋也位列作者之中。

这是继2025年3月,DeepSeek团队发布了关于“原生稀疏注意力”(NSA)的研究后,第二次在大模型训练核心架构上突破。NSA技术的核心是让AI学会像人类一样“快速阅读”。当面对一本数万字的小说或长篇报告时,AI不再需要笨拙地分析和记忆每一个词与所有其他词的关系,而是能智能地抓住重点信息,略过不重要的部分,从而极大地提升了处理长文本的效率。

相关实验数据显示,NSA技术带来了显著的效率提升。在处理长文本时,训练速度提升了6-9倍,而在实际回答问题的推理阶段,解码速度更是提高了11.6倍。除了更快,它还更“聪明”——在多项需要复杂推理的测试中,使用NSA的模型准确率比传统方法高出5%-8%。

而2025年12月31日发布的mHC与专注于让AI“读得快”的NSA不同。mHC关注的是神经网络内部信息传递的“稳定性”。过去的10年中,几乎所有AI模型都依赖于2015年微软研究院提出的残差连接设计。它如同一条信息“快车道”,但对于更深、更复杂的模型,这条车道有时会让信号过度放大,导致训练失控。

2024年9月,DeepSeek曾尝试改进这一设计,提出了“超连接”,但遇到了训练不稳定的难题。此次的mHC通过引入巧妙的数学约束——双随机矩阵,成功解决了这一问题。这好比为神经网络的“学习过程”划定了一个安全的操场,既允许它自由探索和尝试,又确保其不会失控“跑飞”,从而让更大、更复杂的模型能够被稳定地训练出来。

比如在处理一本6万字的小说时,传统AI模型会把70%的时间浪费在重复计算上,而新技术可以让它像人类一样抓住重点、跳过冗余。

NSA技术使手机等移动设备运行长文本AI应用成为可能,为医疗记录分析、整本小说理解等场景提供了技术基础。而mHC则是在不增加计算量的情况下,通过改变信息流动方式提升模型性能,同样的计算资源,更好的效果。

而这篇论文的意义还在于充分体现了DeepSeek一以贯之的技术哲学。正如科技媒体人花叔评论的那样,当你发现一个方法有效但不稳定时,不要放弃,而是去找约束条件。双随机矩阵就是这样一个约束——它保留了HC的表达能力(可学习的连接权重),同时通过数学性质保证了稳定性(加权平均不会爆炸)。在自由和约束之间找平衡,这个思路可能在很多领域都适用。

这也解释了DeepSeek为什么能做到别人做不到的事,这篇论文给出的答案是:去质疑那些“所有人都觉得没必要改”的东西。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2026-01-03 11:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv
2025-02-19 18:43:00
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文
2025-02-19 12:26:00
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
金鳞耀岁 共启新程梁文锋在总理座谈会上发言 新闻联播截图昨天傍晚DeepSeek最新发布的乙巳新年春节AI贺词 一场名为DeepSeek(深度求索)的风暴,正在席卷全球。昨天,
2025-01-28 07:53:00
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepS
2025-01-27 11:06:00
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任
2024-11-04 16:00:00
浙大这本AI狂热分子们编写的免费电子书,火了
...关专业的名称,频繁出现在公众视野。深度探索创始人梁文锋本硕就读于信息与电子工程学院;云深处科技创始人朱秋国是浙大校友,也是控制科学与工程学院副教授;研发出全球最快四足机器狗“
2025-02-27 21:50:00
遗憾不?百度早研究过Scaling Law,Anthropic CEO灵感都来自百度
...增加算力不能大幅提升模型的能力,那么就需要探索新的架构创新、算法优化或跨领域的技术突破。作为一个学术概念,Scaling Law 为人所熟知
2024-11-28 10:00:00
扩散模型和transformer梦幻联动一举拿下新sota
...生成AI”StableDiffusion,都没有使用Transformer作为图像生成架构。△ 英伟达AI科学家JimFan如今新研究表明
2022-12-24 18:10:00
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...使用了哪些数据?其中有多少合成数据?为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的
2024-07-29 09:33:00
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...传图像生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无预兆地,Meta版Sora——Movie Gen
2024-10-08 09:52:00
更多关于科技的资讯:
重磅首发!有道AI答疑笔推出视频讲解,定义学习可视化新标准
近日,网易有道旗下AI原生学习硬件“有道AI答疑笔Space X”完成重要升级,正式推出国内首个高质量的AI“视频答疑”功能
2026-01-05 17:36:00
苏笑聪新书《情境的智慧》即将出版:探寻情境赋能之道
近日,情境教育理论研究及实践家、羽翼天成儿童情境教育创始人苏笑聪女士宣布,其“情境三部曲”的收官之作——《情境的智慧》即将正式出版
2026-01-05 17:36:00
"哪些中国企业创新做得不错?"——这个问题的答案,正在被一批勇于突破、持续创新的中国企业不断刷新。进入2025年,联想集团的创新势头不减
2026-01-05 17:37:00
2025年百城“盒区房”消费图景:轻悦己、品质消费、夜经济氛围拉满
中国消费者报报道(记者桑雪骐)1月5日,《2025年百城“盒区房”消费力报告》(以下简称《报告》)发布,结合2025年盒马在多地门店及入驻商圈动态
2026-01-05 18:10:00
菌安天下:百吨位自然发酵技术全球领先品牌的科技解码
在全球农业面临资源约束与环境压力的双重挑战下,以微生物技术为核心的生物农业正成为引领产业变革的关键力量。在这场绿色革命中
2026-01-05 19:23:00
中荷人寿荣获“杰出寿险公司”奖
近日,由金融界主办的“启航•2025金融年会”暨金智奖颁奖盛典在北京举行。中荷人寿保险有限公司凭借其卓越的经营管理能力
2026-01-05 19:24:00
菌安天下:铸就液体微生物菌剂全国销量第一的品质标杆品牌
在当前中国农业向绿色、可持续发展转型的宏大背景下,农资市场的竞争日益激烈,而真正的“好产品”——那些能让种植户主动复购
2026-01-05 19:27:00
中国消费者报北京讯(记者桑雪骐)空调业的“铜铝之争”由来已久,近段时间再次成为热点话题。1月4日,中国家用电器协会发出倡议
2026-01-05 18:10:00
书亦烧仙草连获双奖:交付给新茶饮行业的长期主义答卷
近日,新茶饮品牌书亦烧仙草接连将“2025食品饮料行业创新案例”与“质量金盾·服务样本”两项行业奖收入囊中。两项奖项分别指向“市场创新”与“品质体系”这两个关键维度
2026-01-05 17:06:00
惠依近日,“Slop”被《韦氏词典》列入2025年度热词,被定义为“通常由人工智能(AI)批量生成的低质量数字内容”。据专家溯源
2026-01-05 14:05:00
全面解读一嗨租车八大优势 站内取还创服务体验新高度
在租车行业,真正的竞争力,藏在看不见的后台体系里:是否统一管理?标准能否落地?出了问题谁来负责?这些问题的答案,决定了一家租车企业的服务成色
2026-01-05 14:05:00
新青年消费崛起,大窑饮品满足“理性+感性”双重决策
花钱主打“爱你老己”、倡导“隐形享受主义”……在当今消费市场中,新青年群体已成为不可忽视的力量。《2025新青年消费趋势报告》揭示
2026-01-05 14:05:00
数智赋能文旅 1314・爱购节情感IP启幕文旅融合新范式
1月4日,“2026 数字经济助力文旅融合新业态创新交流会”在京成功举办,以“提升新质消费 创新业态场景”为主题,共探“数智+文旅+情感消费”融合之道
2026-01-05 14:35:00
温医大眼视光胡亮/吕帆教授团队成功研发智能手机眨眼训练应用程序,开辟干眼症治疗新路径
近日,眼和视光疾病国家临床医学研究中心、国家眼视光工程技术研究中心、温州医科大学附属眼视光医院胡亮/吕帆教授团队的一项重要研究成果在国际高质量期刊《自然》杂志旗下《数字医学》(npj Digital Medicine)在线发表
2026-01-05 15:46:00
用“中国芯”吹出“爱你的风”
江南时报讯 “这是我们的意大利客户发来的使用反馈,一直在说我们的产品特别惊艳。”在不久前结束的第138届中国进出口商品交易会上
2026-01-05 16:07:00