我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

梁文锋发表署名论文提出大模型训练新架构

类别：科技发布时间：2026-01-03 08:31:00 来源：杭州网

在2025年的最后一天，当大多数人准备迎接新年时，DeepSeek团队向学术社区提交了一篇技术论文。这篇论文迅速在人工智能领域引起关注。论文的标题为《mHC：流形约束超连接》，由谢振达、魏毅轩、曹焕奇等研究人员共同完成，DeepSeek创始人梁文锋也位列作者之中。

这是继2025年3月，DeepSeek团队发布了关于“原生稀疏注意力”（NSA）的研究后，第二次在大模型训练核心架构上突破。NSA技术的核心是让AI学会像人类一样“快速阅读”。当面对一本数万字的小说或长篇报告时，AI不再需要笨拙地分析和记忆每一个词与所有其他词的关系，而是能智能地抓住重点信息，略过不重要的部分，从而极大地提升了处理长文本的效率。

相关实验数据显示，NSA技术带来了显著的效率提升。在处理长文本时，训练速度提升了6-9倍，而在实际回答问题的推理阶段，解码速度更是提高了11.6倍。除了更快，它还更“聪明”——在多项需要复杂推理的测试中，使用NSA的模型准确率比传统方法高出5%-8%。

而2025年12月31日发布的mHC与专注于让AI“读得快”的NSA不同。mHC关注的是神经网络内部信息传递的“稳定性”。过去的10年中，几乎所有AI模型都依赖于2015年微软研究院提出的残差连接设计。它如同一条信息“快车道”，但对于更深、更复杂的模型，这条车道有时会让信号过度放大，导致训练失控。

2024年9月，DeepSeek曾尝试改进这一设计，提出了“超连接”，但遇到了训练不稳定的难题。此次的mHC通过引入巧妙的数学约束——双随机矩阵，成功解决了这一问题。这好比为神经网络的“学习过程”划定了一个安全的操场，既允许它自由探索和尝试，又确保其不会失控“跑飞”，从而让更大、更复杂的模型能够被稳定地训练出来。

比如在处理一本6万字的小说时，传统AI模型会把70%的时间浪费在重复计算上，而新技术可以让它像人类一样抓住重点、跳过冗余。

NSA技术使手机等移动设备运行长文本AI应用成为可能，为医疗记录分析、整本小说理解等场景提供了技术基础。而mHC则是在不增加计算量的情况下，通过改变信息流动方式提升模型性能，同样的计算资源，更好的效果。

而这篇论文的意义还在于充分体现了DeepSeek一以贯之的技术哲学。正如科技媒体人花叔评论的那样，当你发现一个方法有效但不稳定时，不要放弃，而是去找约束条件。双随机矩阵就是这样一个约束——它保留了HC的表达能力（可学习的连接权重），同时通过数学性质保证了稳定性（加权平均不会爆炸）。在自由和约束之间找平衡，这个思路可能在很多领域都适用。

这也解释了DeepSeek为什么能做到别人做不到的事，这篇论文给出的答案是：去质疑那些“所有人都觉得没必要改”的东西。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2026-01-03 11:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于文锋,架构,模型,训练,论文,模型的资讯：

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

...司深度求索（DeepSeek）最新一篇论文引发关注，创始人梁文锋在署名之列，并2月16日提交到预印本平台arxiv

2025-02-19 18:43:00

DeepSeek发布最新NSA技术论文！创始人梁文锋参与引人

...感到惊喜和意外的是，据论文署名排名，DeepSeek创始人梁文锋现身论文著作者之中，在作者排名中位列倒数第二。根据论文摘要，DeepSeek团队认为，业界越来越认识到长上下文

2025-02-19 12:26:00

DeepSeek，这条诞生在杭州的“鲸鱼” 这几天在全球科技

金鳞耀岁共启新程梁文锋在总理座谈会上发言新闻联播截图昨天傍晚DeepSeek最新发布的乙巳新年春节AI贺词一场名为DeepSeek（深度求索）的风暴，正在席卷全球。昨天，

2025-01-28 07:53:00

DeepSeek创始人梁文锋：中国AI不可能永远跟随必然有

快科技1月27日消息，随着DeepSeek全球爆火，其创始人梁文锋从幕后走到了台前。20日下午，高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前，非常少露面的DeepS

2025-01-27 11:06:00

大模型新趋势之MoE：现状、挑战及研究方向

...快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任

2024-11-04 16:00:00

浙大这本AI狂热分子们编写的免费电子书，火了

...关专业的名称，频繁出现在公众视野。深度探索创始人梁文锋本硕就读于信息与电子工程学院；云深处科技创始人朱秋国是浙大校友，也是控制科学与工程学院副教授；研发出全球最快四足机器狗“

2025-02-27 21:50:00

遗憾不?百度早研究过Scaling Law,Anthropi

...增加算力不能大幅提升模型的能力，那么就需要探索新的架构创新、算法优化或跨领域的技术突破。作为一个学术概念，Scaling Law 为人所熟知

2024-11-28 10:00:00

扩散模型和transformer梦幻联动一举拿下新sota

...生成AI”StableDiffusion，都没有使用Transformer作为图像生成架构。△ 英伟达AI科学家JimFan如今新研究表明

2022-12-24 18:10:00

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...使用了哪些数据？其中有多少合成数据？为什么不使用MoE架构？后训练与RLHF流程是如何进行的？模型评估是如何进行的

2024-07-29 09:33:00

更多关于科技的资讯：

AI时代，“养小龙虾”就能创业成功？

有人研究怎么把企业做大，有人研究怎么把企业做快，这个人却一头扎进历史堆里，研究一件事：为什么有些企业能活很久，有些却中途消失

2026-03-10 20:17:00

全国政协委员王黎光：AI编曲不能代替人工｜宅男财经

当前AI技术正在深入影响内容创作行业，对于AI编曲现象，全国政协委员王黎光表示，AI虽然能代替创作过程但不能代替人工。AI编曲是以大模型的储备量和收集量为基础的

2026-03-10 20:39:00

镇江农商银行优化结构驱动价值增长

在银行业竞争日趋激烈、利差收窄的宏观环境下，镇江农商银行坚持以精细化管理为抓手，通过实施“熵减工程”“蜂巢工程”和结构调优三大举措

2026-03-10 22:41:00

小红书将治理AI托管类账号

中新经纬3月10日电小红书“薯管家”官方账号发布公告称，近期，平台发现部分用户采用AI托管模式运营账号，通过技术手段自动生成内容

2026-03-10 21:19:00

国家互联网应急中心发布关于OpenClaw安全应用的风险提示

中国网3月10日讯据“国家互联网应急中心CNCERT”微信公众号消息，近期，OpenClaw（“小龙虾”，曾用名Clawdbot

2026-03-10 20:05:00

春风送千岗，AI助求职：2026年综合专场招聘会暨春风行动就

3月7日上午，“AI聘·才汇来”相城区2026年综合类专场招聘会暨春风行动就业援助活动在相城区人力资源市场成功举办。作为“春风行动”系列活动之一

2026-03-10 17:45:00

国科光锐研发生产基地项目落户黄桥

江南时报讯 3月4日，国科光锐研发生产基地项目签约仪式顺利举行，抢抓高端装备制造产业发展机遇，完善先进制造业发展支撑体系

2026-03-10 17:48:00

“养龙虾”，多地砸钱支持

中新经纬3月10日电 “养龙虾”，这是近日的AI热词，即部署和使用名为OpenClaw‌的开源AI智能体框架，因其图标为一只红色龙虾

2026-03-10 19:10:00

深耕微生物营养安琪酵母以基础研究驱动发酵产业新质生产力

鲁网3月10日讯（记者张佳伟）3月9日，由中国生物发酵产业协会主办、安琪酵母股份有限公司承办的“2026第十一届发酵培养基应用与发展技术论坛”在济南黄河国际会展中心举行

2026-03-10 17:24:00

两会，就这Young！丨万亿存量市场怎么激活？全国人大代表郭

编者按：今年全国两会，大河网两位00后记者首次踏上两会征程，以“萌新”视角记录两会，为网友带来全新体验：不背稿、不装样

2026-03-10 14:21:00

让家陪伴成长——金隅天坛家居Mall 3月7日启幕，定义“家

在快速更迭的时代，人们对家的期待已超越功能满足，转而追求情感承载与成长陪伴。正是基于这一洞察，金隅天坛家居Mall提出“我家的长期主义”核心主张——让家能够伴随家庭成长

2026-03-10 14:26:00

财报全维度解析高途：网课靠谱，机构可靠更正规

在教育选择中，高途网课是否靠谱、教育机构是否可靠、办学是否正规，是学习者和家长最为关注的核心问题。高途 2025 财年第四季度及全年财报

2026-03-10 14:27:00

文化认同融入创新表达，“欢笑中国年”如何抓住大众情绪的小切口

2026 年春节，红包大战再度迎来内卷与爆发，随着AI平台扎堆涌入，用户在春节期间的注意力被分散、现金激励的边际效应减弱

2026-03-10 16:50:00

灵寿县：灵活就业AI分析让求职成功率提升25%

“把这次春风行动搜集到的信息尽快录入系统，用AI分析一下，精准做好匹配。”3月8日，灵寿县零工市场有关负责人张杉认真梳理了上一场“春风行动”收集到的用工求职信息

2026-03-10 11:30:00

杭州的人形机器人太超前德国留学生专程为它来学习

近日，浙江科技大学机器人现代产业学院实验室里，来自德国德累斯顿技术经济大学的硕士研究生马克西米利安·穆勒正在开展关于宇树人形机器人的毕业论文研究

2026-03-10 11:36:00

头条订阅服务

梁文锋发表署名论文 提出大模型训练新架构

梁文锋发表署名论文提出大模型训练新架构