• 我的订阅
  • 科技

梁文锋发表署名论文 提出大模型训练新架构

类别:科技 发布时间:2026-01-03 08:31:00 来源:杭州网

在2025年的最后一天,当大多数人准备迎接新年时,DeepSeek团队向学术社区提交了一篇技术论文。这篇论文迅速在人工智能领域引起关注。论文的标题为《mHC:流形约束超连接》,由谢振达、魏毅轩、曹焕奇等研究人员共同完成,DeepSeek创始人梁文锋也位列作者之中。

这是继2025年3月,DeepSeek团队发布了关于“原生稀疏注意力”(NSA)的研究后,第二次在大模型训练核心架构上突破。NSA技术的核心是让AI学会像人类一样“快速阅读”。当面对一本数万字的小说或长篇报告时,AI不再需要笨拙地分析和记忆每一个词与所有其他词的关系,而是能智能地抓住重点信息,略过不重要的部分,从而极大地提升了处理长文本的效率。

相关实验数据显示,NSA技术带来了显著的效率提升。在处理长文本时,训练速度提升了6-9倍,而在实际回答问题的推理阶段,解码速度更是提高了11.6倍。除了更快,它还更“聪明”——在多项需要复杂推理的测试中,使用NSA的模型准确率比传统方法高出5%-8%。

而2025年12月31日发布的mHC与专注于让AI“读得快”的NSA不同。mHC关注的是神经网络内部信息传递的“稳定性”。过去的10年中,几乎所有AI模型都依赖于2015年微软研究院提出的残差连接设计。它如同一条信息“快车道”,但对于更深、更复杂的模型,这条车道有时会让信号过度放大,导致训练失控。

2024年9月,DeepSeek曾尝试改进这一设计,提出了“超连接”,但遇到了训练不稳定的难题。此次的mHC通过引入巧妙的数学约束——双随机矩阵,成功解决了这一问题。这好比为神经网络的“学习过程”划定了一个安全的操场,既允许它自由探索和尝试,又确保其不会失控“跑飞”,从而让更大、更复杂的模型能够被稳定地训练出来。

比如在处理一本6万字的小说时,传统AI模型会把70%的时间浪费在重复计算上,而新技术可以让它像人类一样抓住重点、跳过冗余。

NSA技术使手机等移动设备运行长文本AI应用成为可能,为医疗记录分析、整本小说理解等场景提供了技术基础。而mHC则是在不增加计算量的情况下,通过改变信息流动方式提升模型性能,同样的计算资源,更好的效果。

而这篇论文的意义还在于充分体现了DeepSeek一以贯之的技术哲学。正如科技媒体人花叔评论的那样,当你发现一个方法有效但不稳定时,不要放弃,而是去找约束条件。双随机矩阵就是这样一个约束——它保留了HC的表达能力(可学习的连接权重),同时通过数学性质保证了稳定性(加权平均不会爆炸)。在自由和约束之间找平衡,这个思路可能在很多领域都适用。

这也解释了DeepSeek为什么能做到别人做不到的事,这篇论文给出的答案是:去质疑那些“所有人都觉得没必要改”的东西。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2026-01-03 11:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv
2025-02-19 18:43:00
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文
2025-02-19 12:26:00
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
金鳞耀岁 共启新程梁文锋在总理座谈会上发言 新闻联播截图昨天傍晚DeepSeek最新发布的乙巳新年春节AI贺词 一场名为DeepSeek(深度求索)的风暴,正在席卷全球。昨天,
2025-01-28 07:53:00
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepS
2025-01-27 11:06:00
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任
2024-11-04 16:00:00
浙大这本AI狂热分子们编写的免费电子书,火了
...关专业的名称,频繁出现在公众视野。深度探索创始人梁文锋本硕就读于信息与电子工程学院;云深处科技创始人朱秋国是浙大校友,也是控制科学与工程学院副教授;研发出全球最快四足机器狗“
2025-02-27 21:50:00
遗憾不?百度早研究过Scaling Law,Anthropic CEO灵感都来自百度
...增加算力不能大幅提升模型的能力,那么就需要探索新的架构创新、算法优化或跨领域的技术突破。作为一个学术概念,Scaling Law 为人所熟知
2024-11-28 10:00:00
扩散模型和transformer梦幻联动一举拿下新sota
...生成AI”StableDiffusion,都没有使用Transformer作为图像生成架构。△ 英伟达AI科学家JimFan如今新研究表明
2022-12-24 18:10:00
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...使用了哪些数据?其中有多少合成数据?为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的
2024-07-29 09:33:00
更多关于科技的资讯:
河北新闻网讯(赵静静、陈立君)日前,开滦集团铁拓公司(简称“开滦铁拓公司”)自主研制出一台液压支架连杆焊接机器人,并在支护设备厂生产车间正式投入应用
2026-01-06 21:24:00
中新经纬1月6日电 据极目新闻报道,1月5日下午,三星电子会长李在镕现身北京京东MALL双井店购物。此前,李在镕出席了由中国贸促会
2026-01-06 21:31:00
江南时报讯 近日,第五届江苏资本市场峰会在南京召开。本次峰会围绕“聚合资本力量,助力产业创新”主题展开,通过多维度量化评价
2026-01-06 22:12:00
河北新闻网讯(闫丽颖、唐福刚)1月2日,在开滦股份范各庄矿井下600多米深处的三水平中央变电所,一位特殊的“新员工”——轨道式智能巡检机器人正式上岗
2026-01-06 21:35:00
1月6日,记者从盒马鲜生总部获悉,山西首店开业筹备已进入最后冲刺阶段。自7日起,线上配送服务陆续开启,这意味着以“盒区房生活”为代表的新零售方式正式步入太原人的生活日常
2026-01-06 20:06:00
2026成长新启示:张德芬《遇见未知的自己》解锁“爱你老己”,让自我陪伴成为终身底气
“亲爱的,外面没有别人,只有你自己。”张德芬在《遇见未知的自己》中写下的这句经典箴言,于2026年岁末年初再度引爆社交平台
2026-01-06 17:17:00
中国消费者报海口讯(记者董芳忠)近日,在海南省海口市举办的全国信标委人工智能分委会“标准周”活动期间,国内首张大模型高阶通用能力国家标准符合性测试证书正式颁发
2026-01-06 18:25:00
更名、AI巨头探访、股价大幅上涨,喜临门开门红!
近期,喜临门宣布更名“睡眠科技”,在资本市场与全球舆论场同步引发回响。国内市场方面,其股价稳步上扬并获资金持续买入,新年开盘第一个交易日打开涨停
2026-01-06 19:42:00
海尔三筒洗衣机越南热卖,夯实高端第一地位
海尔三筒洗衣机自10月登陆越南市场后,凭借独特设计与卓越性能迅速实现热卖。不仅赢得当地中产群体广泛认可,更推动在当地2000越南盾以上高端价位段实现0到13%的份额突破
2026-01-06 19:46:00
2026国家补贴已上线,河北廊坊消费者顺利签收省内冰箱国补首单
河北新闻网讯(记者 李春炜)2026年伊始,国家新一轮家电补贴政策于元旦起正式生效,各地消费者纷纷抓住机遇。其中,河北省廊坊市的王女士成为首批受益者
2026-01-06 17:06:00
乐佳善优品牌全指南:知名高端母婴营养品牌的成长与内核
乐佳善优,一个在中国母婴营养品领域深耕超过 16 年的知名品牌,凭借其 “专注营养,健康无忧”的核心理念,已成为众多中国家庭信赖的健康伙伴
2026-01-06 14:23:00
2026年初,人工智能已不再只是科技圈的热词,而是加速渗透进千行百业的真实生产力工具。据多家研究机构预测,今年将成为AI应用“规模化落地”的元年——企业对AI的需求正从“要不要用”转向“怎么用好”
2026-01-06 14:46:00
长白时评评论员 唐小兰当车厘子零售价从每斤数百元跌至百元以内,消费者在社交媒体上欢呼“车厘子自由”的同时,一种新的烦恼正在蔓延——价格是下来了
2026-01-06 15:59:00
随着生成式AI技术全面重塑信息检索生态,企业如何在新型搜索场景中有效触达目标受众,已成为区域经济发展中的重要课题。以山东同风起信息科技有限公司为代表的优秀山东GEO优化企业
2026-01-06 16:09:00
激活情感IP 1314爱购节北京启幕新质消费新范式
1月3日至1月4日,为响应国家扩大内需、培育新质消费战略,由中国通信工业协会指导、中国通信工业协会平台经济创新专委会主办
2026-01-06 16:14:00