• 我的订阅
  • 科技

梁文锋发表署名论文 提出大模型训练新架构

类别:科技 发布时间:2026-01-03 08:31:00 来源:杭州网

在2025年的最后一天,当大多数人准备迎接新年时,DeepSeek团队向学术社区提交了一篇技术论文。这篇论文迅速在人工智能领域引起关注。论文的标题为《mHC:流形约束超连接》,由谢振达、魏毅轩、曹焕奇等研究人员共同完成,DeepSeek创始人梁文锋也位列作者之中。

这是继2025年3月,DeepSeek团队发布了关于“原生稀疏注意力”(NSA)的研究后,第二次在大模型训练核心架构上突破。NSA技术的核心是让AI学会像人类一样“快速阅读”。当面对一本数万字的小说或长篇报告时,AI不再需要笨拙地分析和记忆每一个词与所有其他词的关系,而是能智能地抓住重点信息,略过不重要的部分,从而极大地提升了处理长文本的效率。

相关实验数据显示,NSA技术带来了显著的效率提升。在处理长文本时,训练速度提升了6-9倍,而在实际回答问题的推理阶段,解码速度更是提高了11.6倍。除了更快,它还更“聪明”——在多项需要复杂推理的测试中,使用NSA的模型准确率比传统方法高出5%-8%。

而2025年12月31日发布的mHC与专注于让AI“读得快”的NSA不同。mHC关注的是神经网络内部信息传递的“稳定性”。过去的10年中,几乎所有AI模型都依赖于2015年微软研究院提出的残差连接设计。它如同一条信息“快车道”,但对于更深、更复杂的模型,这条车道有时会让信号过度放大,导致训练失控。

2024年9月,DeepSeek曾尝试改进这一设计,提出了“超连接”,但遇到了训练不稳定的难题。此次的mHC通过引入巧妙的数学约束——双随机矩阵,成功解决了这一问题。这好比为神经网络的“学习过程”划定了一个安全的操场,既允许它自由探索和尝试,又确保其不会失控“跑飞”,从而让更大、更复杂的模型能够被稳定地训练出来。

比如在处理一本6万字的小说时,传统AI模型会把70%的时间浪费在重复计算上,而新技术可以让它像人类一样抓住重点、跳过冗余。

NSA技术使手机等移动设备运行长文本AI应用成为可能,为医疗记录分析、整本小说理解等场景提供了技术基础。而mHC则是在不增加计算量的情况下,通过改变信息流动方式提升模型性能,同样的计算资源,更好的效果。

而这篇论文的意义还在于充分体现了DeepSeek一以贯之的技术哲学。正如科技媒体人花叔评论的那样,当你发现一个方法有效但不稳定时,不要放弃,而是去找约束条件。双随机矩阵就是这样一个约束——它保留了HC的表达能力(可学习的连接权重),同时通过数学性质保证了稳定性(加权平均不会爆炸)。在自由和约束之间找平衡,这个思路可能在很多领域都适用。

这也解释了DeepSeek为什么能做到别人做不到的事,这篇论文给出的答案是:去质疑那些“所有人都觉得没必要改”的东西。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2026-01-03 11:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv
2025-02-19 18:43:00
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文
2025-02-19 12:26:00
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
金鳞耀岁 共启新程梁文锋在总理座谈会上发言 新闻联播截图昨天傍晚DeepSeek最新发布的乙巳新年春节AI贺词 一场名为DeepSeek(深度求索)的风暴,正在席卷全球。昨天,
2025-01-28 07:53:00
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepS
2025-01-27 11:06:00
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任
2024-11-04 16:00:00
浙大这本AI狂热分子们编写的免费电子书,火了
...关专业的名称,频繁出现在公众视野。深度探索创始人梁文锋本硕就读于信息与电子工程学院;云深处科技创始人朱秋国是浙大校友,也是控制科学与工程学院副教授;研发出全球最快四足机器狗“
2025-02-27 21:50:00
遗憾不?百度早研究过Scaling Law,Anthropic CEO灵感都来自百度
...增加算力不能大幅提升模型的能力,那么就需要探索新的架构创新、算法优化或跨领域的技术突破。作为一个学术概念,Scaling Law 为人所熟知
2024-11-28 10:00:00
扩散模型和transformer梦幻联动一举拿下新sota
...生成AI”StableDiffusion,都没有使用Transformer作为图像生成架构。△ 英伟达AI科学家JimFan如今新研究表明
2022-12-24 18:10:00
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...使用了哪些数据?其中有多少合成数据?为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的
2024-07-29 09:33:00
更多关于科技的资讯:
中新经纬4月4日电 (张芷菡)一个小篮子加上一把小铲子,钻进郊野就能收获春天。如今,挖野菜已从老年“养生局”变成了年轻人的“潮流局”
2026-04-04 20:12:00
4月4日,央视新闻客户端以《春暖花开换装忙换季消费带热“春日经济”》为题,报道了太原服装市场迎来换季消费高峰,春装热销持续拉动“春日经济”升温
2026-04-04 17:35:00
廊坊建成全国首个省级算力监测调度平台。
2026-04-04 18:26:00
中新经纬4月4日电 (宋亚芬)对于数以万计通过小包裹把“中国制造”卖往全球的中小电商来说,退货这条“回家路”曾困难重重
2026-04-04 18:04:00
近日,平安银行“基于iDeal平台的AI做市报价机器人项目”荣膺2025年深圳金融创新大赛二等奖。该大赛由深圳市地方金融管理局
2026-04-04 15:34:00
4月4日消息,千问AI打车清明假期订单量周环比增长超1500%,用户使用规模极速攀升。该功能于3月23日上线,距今不足两周
2026-04-04 11:41:00
千问3.6Plus大模型登顶全球模型调用排行榜首
4月4日消息,发布仅1天的千问新模型Qwen3.6-Plus,冲上全球知名大模型API调用平台OpenRouter的日榜榜首
2026-04-04 11:41:00
涌金楼丨浙企正在资本市场进行一场“春耕”
浙江企业正在资本市场进行一场“春耕”。截至3月31日,13家浙企登陆港交所、上交所、北交所。短短三个月,春意渐浓——这正是观察浙江产业升级的鲜活切面
2026-04-04 12:46:00
数智赋能新体验 山东移动高唐分公司助力宾馆智慧升级
鲁网4月3日讯随着人工智能、物联网等数字技术的快速发展,智慧化服务正加速融入日常生活。近日,山东移动高唐分公司充分发挥全光网络与云网能力
2026-04-04 08:27:00
中新经纬4月3日电 (宋亚芬)“人车家互联”迎来政策层面的推动。工信部等九部门近日联合印发的《推动物联网产业创新发展行动方案(2026-2028年)》中
2026-04-04 11:00:00
近日,世界超级摩托车锦标赛葡萄牙站赛场上传来好消息,中国摩托车制造商“张雪机车”以近4秒的绝对优势获得冠军,成绩断崖式碾压杜卡迪
2026-04-04 08:54:00
厦企造具身智能机器人加速商业化场景落地
厦企小鹭智能研发的四足巡检机器人,可承担全天候智能巡检任务。(小鹭智能 供图)厦门网讯(厦门日报记者 林露虹 实习生 陈慧)除了登台表演
2026-04-04 08:43:00
亿纬锂能6.9MWh储能系统亮相ESIE 2026,以确定性量产交付领跑储能大电池赛道
当储能行业走过概念验证的探索期,真正的考验才刚刚开始。过去两年,从280Ah、300Ah到500Ah+,从5MWh到6MWh以上
2026-04-03 21:50:00
华之杰(603400)定位于智能控制行业,致力于以锂电池电源管理、智能控制、无刷电机驱动和控制等技术为核心,主要为锂电电动工具
2026-04-03 22:31:00