• 我的订阅
  • 科技

梁文锋发表署名论文 提出大模型训练新架构

类别:科技 发布时间:2026-01-03 08:31:00 来源:杭州网

在2025年的最后一天,当大多数人准备迎接新年时,DeepSeek团队向学术社区提交了一篇技术论文。这篇论文迅速在人工智能领域引起关注。论文的标题为《mHC:流形约束超连接》,由谢振达、魏毅轩、曹焕奇等研究人员共同完成,DeepSeek创始人梁文锋也位列作者之中。

这是继2025年3月,DeepSeek团队发布了关于“原生稀疏注意力”(NSA)的研究后,第二次在大模型训练核心架构上突破。NSA技术的核心是让AI学会像人类一样“快速阅读”。当面对一本数万字的小说或长篇报告时,AI不再需要笨拙地分析和记忆每一个词与所有其他词的关系,而是能智能地抓住重点信息,略过不重要的部分,从而极大地提升了处理长文本的效率。

相关实验数据显示,NSA技术带来了显著的效率提升。在处理长文本时,训练速度提升了6-9倍,而在实际回答问题的推理阶段,解码速度更是提高了11.6倍。除了更快,它还更“聪明”——在多项需要复杂推理的测试中,使用NSA的模型准确率比传统方法高出5%-8%。

而2025年12月31日发布的mHC与专注于让AI“读得快”的NSA不同。mHC关注的是神经网络内部信息传递的“稳定性”。过去的10年中,几乎所有AI模型都依赖于2015年微软研究院提出的残差连接设计。它如同一条信息“快车道”,但对于更深、更复杂的模型,这条车道有时会让信号过度放大,导致训练失控。

2024年9月,DeepSeek曾尝试改进这一设计,提出了“超连接”,但遇到了训练不稳定的难题。此次的mHC通过引入巧妙的数学约束——双随机矩阵,成功解决了这一问题。这好比为神经网络的“学习过程”划定了一个安全的操场,既允许它自由探索和尝试,又确保其不会失控“跑飞”,从而让更大、更复杂的模型能够被稳定地训练出来。

比如在处理一本6万字的小说时,传统AI模型会把70%的时间浪费在重复计算上,而新技术可以让它像人类一样抓住重点、跳过冗余。

NSA技术使手机等移动设备运行长文本AI应用成为可能,为医疗记录分析、整本小说理解等场景提供了技术基础。而mHC则是在不增加计算量的情况下,通过改变信息流动方式提升模型性能,同样的计算资源,更好的效果。

而这篇论文的意义还在于充分体现了DeepSeek一以贯之的技术哲学。正如科技媒体人花叔评论的那样,当你发现一个方法有效但不稳定时,不要放弃,而是去找约束条件。双随机矩阵就是这样一个约束——它保留了HC的表达能力(可学习的连接权重),同时通过数学性质保证了稳定性(加权平均不会爆炸)。在自由和约束之间找平衡,这个思路可能在很多领域都适用。

这也解释了DeepSeek为什么能做到别人做不到的事,这篇论文给出的答案是:去质疑那些“所有人都觉得没必要改”的东西。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2026-01-03 11:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv
2025-02-19 18:43:00
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文
2025-02-19 12:26:00
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
金鳞耀岁 共启新程梁文锋在总理座谈会上发言 新闻联播截图昨天傍晚DeepSeek最新发布的乙巳新年春节AI贺词 一场名为DeepSeek(深度求索)的风暴,正在席卷全球。昨天,
2025-01-28 07:53:00
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepS
2025-01-27 11:06:00
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任
2024-11-04 16:00:00
浙大这本AI狂热分子们编写的免费电子书,火了
...关专业的名称,频繁出现在公众视野。深度探索创始人梁文锋本硕就读于信息与电子工程学院;云深处科技创始人朱秋国是浙大校友,也是控制科学与工程学院副教授;研发出全球最快四足机器狗“
2025-02-27 21:50:00
遗憾不?百度早研究过Scaling Law,Anthropic CEO灵感都来自百度
...增加算力不能大幅提升模型的能力,那么就需要探索新的架构创新、算法优化或跨领域的技术突破。作为一个学术概念,Scaling Law 为人所熟知
2024-11-28 10:00:00
扩散模型和transformer梦幻联动一举拿下新sota
...生成AI”StableDiffusion,都没有使用Transformer作为图像生成架构。△ 英伟达AI科学家JimFan如今新研究表明
2022-12-24 18:10:00
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...使用了哪些数据?其中有多少合成数据?为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的
2024-07-29 09:33:00
更多关于科技的资讯:
阿里发布千问3.5,性能媲美Gemini 3, Token价格仅为其1/18
2月16日除夕当天,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,性能媲美Gemini 3 Pro,登顶全球最强开源模型
2026-02-16 17:34:00
海信冰箱联手央视《探班春晚》 用真空保鲜科技“锁住年味”
鲁网2月16日讯2月16日,作为央视新闻新媒体《探班春晚》的独家家电合作伙伴,海信冰箱携真空保鲜科技亮相“春晚会客厅”
2026-02-16 18:47:00
余杭文化“新三样”扬帆 驶向全球文化蓝海
《长安三万里·梦回大唐》获金鸡虚拟现实电影季“年度最佳艺术表现奖”。后亚运时代,杭州如何将因赛会集聚的国际目光,转化为持续的城市发展动能
2026-02-16 11:33:00
北京亦庄与它石智航达成战略合作!共建产业新高地
2026年伊始,具身智能产业持续加速发展。2月14日,北京亦庄与它石智航达成战略合作,双方将在具身智能关键技术攻关、应用落地和产业生态建设方面展开合作
2026-02-16 08:21:00
厦门网讯(厦门日报记者 林露虹)马年春节假期,厦门科技企业的“电子年货”火热上线。在厦门过年,市民和游客可以请AI当导游
2026-02-16 08:40:00
自2025年夏季,京东、美团、阿里等数字平台企业相继开启围绕即时零售市场的激烈争夺。这场“闪购大战”,初期以各方投入“天价补贴”争抢流量而引发社会广泛关注
2026-02-16 08:53:00
马年新春,光景别样。打开手机AI小程序,输入姓名、爱好与新年心愿,一键可生成专属春联。AI深度融入日常生活,无所不在。拥抱AI
2026-02-16 07:39:00
鲁网2月15日讯在人工智能加速重构产业组织形态的背景下,“一人即公司”(OPC)正成为全球创新创业的新范式。2026年2月12日
2026-02-15 20:48:00
石家庄市栾城区妇联举办美妆技能培训
河北新闻网讯(王秀平、李明发)近日,石家庄市栾城区妇联联合妆颜美化妆培训学校,精心举办了一场干货满满的美妆技能培训活动
2026-02-15 19:16:00
英科医疗开年首展登录迪拜WHX展会,“中国智造”医疗解决方案亮相全球市场
2月9日至12日,全球领先的医疗护理产品供应商英科医疗携三大事业部创新成果亮相阿拉伯国际医疗器械展览会(World Health Expo Dubai)
2026-02-15 13:50:00
龙岗文旅数字IP城市巡礼破圈传播,迎春花市成内容热点
市民围观、拍照打卡,数字人引爆春节花市春节前夕,龙岗迎春花市迎来一场特别的巡礼:数字IP首次在花市与市民面对面互动。现场
2026-02-15 13:52:00
近日,中亦科技收到了一封来自大众汽车的感谢信。信中对中亦科技服务团队在应对大规模生产系统突发故障时的卓越表现,以及长期以来展现出的专业素养和“以客户为中心”的担当精神给予了高度评价
2026-02-15 10:23:00
杭产数字人“席卷”东南亚
“这款粉底色号非常自然,贴合亚洲人肤色。” 马来西亚TikTok直播间,一位妆容精致的主播正微笑着与观众互动,当用户追问具体颜色
2026-02-15 07:41:00
《视野》杂志启动AI协作创作大赛
中国青年报客户端讯(中青报·中青网记者 马富春)2月13日,《视野》杂志“人类文明备忘录”AI协作创作大赛正式启动。活动以直播+实时互动形式展开
2026-02-14 20:52:00