• 我的订阅
  • 科技

梁文锋发表署名论文 提出大模型训练新架构

类别:科技 发布时间:2026-01-03 08:31:00 来源:杭州网

在2025年的最后一天,当大多数人准备迎接新年时,DeepSeek团队向学术社区提交了一篇技术论文。这篇论文迅速在人工智能领域引起关注。论文的标题为《mHC:流形约束超连接》,由谢振达、魏毅轩、曹焕奇等研究人员共同完成,DeepSeek创始人梁文锋也位列作者之中。

这是继2025年3月,DeepSeek团队发布了关于“原生稀疏注意力”(NSA)的研究后,第二次在大模型训练核心架构上突破。NSA技术的核心是让AI学会像人类一样“快速阅读”。当面对一本数万字的小说或长篇报告时,AI不再需要笨拙地分析和记忆每一个词与所有其他词的关系,而是能智能地抓住重点信息,略过不重要的部分,从而极大地提升了处理长文本的效率。

相关实验数据显示,NSA技术带来了显著的效率提升。在处理长文本时,训练速度提升了6-9倍,而在实际回答问题的推理阶段,解码速度更是提高了11.6倍。除了更快,它还更“聪明”——在多项需要复杂推理的测试中,使用NSA的模型准确率比传统方法高出5%-8%。

而2025年12月31日发布的mHC与专注于让AI“读得快”的NSA不同。mHC关注的是神经网络内部信息传递的“稳定性”。过去的10年中,几乎所有AI模型都依赖于2015年微软研究院提出的残差连接设计。它如同一条信息“快车道”,但对于更深、更复杂的模型,这条车道有时会让信号过度放大,导致训练失控。

2024年9月,DeepSeek曾尝试改进这一设计,提出了“超连接”,但遇到了训练不稳定的难题。此次的mHC通过引入巧妙的数学约束——双随机矩阵,成功解决了这一问题。这好比为神经网络的“学习过程”划定了一个安全的操场,既允许它自由探索和尝试,又确保其不会失控“跑飞”,从而让更大、更复杂的模型能够被稳定地训练出来。

比如在处理一本6万字的小说时,传统AI模型会把70%的时间浪费在重复计算上,而新技术可以让它像人类一样抓住重点、跳过冗余。

NSA技术使手机等移动设备运行长文本AI应用成为可能,为医疗记录分析、整本小说理解等场景提供了技术基础。而mHC则是在不增加计算量的情况下,通过改变信息流动方式提升模型性能,同样的计算资源,更好的效果。

而这篇论文的意义还在于充分体现了DeepSeek一以贯之的技术哲学。正如科技媒体人花叔评论的那样,当你发现一个方法有效但不稳定时,不要放弃,而是去找约束条件。双随机矩阵就是这样一个约束——它保留了HC的表达能力(可学习的连接权重),同时通过数学性质保证了稳定性(加权平均不会爆炸)。在自由和约束之间找平衡,这个思路可能在很多领域都适用。

这也解释了DeepSeek为什么能做到别人做不到的事,这篇论文给出的答案是:去质疑那些“所有人都觉得没必要改”的东西。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2026-01-03 11:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv
2025-02-19 18:43:00
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文
2025-02-19 12:26:00
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
金鳞耀岁 共启新程梁文锋在总理座谈会上发言 新闻联播截图昨天傍晚DeepSeek最新发布的乙巳新年春节AI贺词 一场名为DeepSeek(深度求索)的风暴,正在席卷全球。昨天,
2025-01-28 07:53:00
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepS
2025-01-27 11:06:00
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任
2024-11-04 16:00:00
浙大这本AI狂热分子们编写的免费电子书,火了
...关专业的名称,频繁出现在公众视野。深度探索创始人梁文锋本硕就读于信息与电子工程学院;云深处科技创始人朱秋国是浙大校友,也是控制科学与工程学院副教授;研发出全球最快四足机器狗“
2025-02-27 21:50:00
遗憾不?百度早研究过Scaling Law,Anthropic CEO灵感都来自百度
...增加算力不能大幅提升模型的能力,那么就需要探索新的架构创新、算法优化或跨领域的技术突破。作为一个学术概念,Scaling Law 为人所熟知
2024-11-28 10:00:00
扩散模型和transformer梦幻联动一举拿下新sota
...生成AI”StableDiffusion,都没有使用Transformer作为图像生成架构。△ 英伟达AI科学家JimFan如今新研究表明
2022-12-24 18:10:00
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...使用了哪些数据?其中有多少合成数据?为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的
2024-07-29 09:33:00
更多关于科技的资讯:
全国媒体聚焦:智能机器人有哪些新本领?
大皖新闻讯 当会跳高的人形机器人轻松跃起,当“变形金刚”般的轮式机器人在狭小车间自由伸展,当手掌大小的微型无人机在“废墟”中寻找生命迹象……这些原本存在于科幻电影中的场景
2026-03-09 21:36:00
杰克科技与百亿具身智能公司成立机器人公司
杰克科技(603337)作为缝制设备行业的领军企业,是全球工业缝纫机行业领航者之一,连续14年全球销量第一,市占率超30%
2026-03-09 18:45:00
3月9日,随着指数季度调整生效,不同集团(06090)正式被纳入恒生综合指数并同步进入港股通标的名单。随着更多投资者进入
2026-03-09 19:25:00
轻薄手感碰撞旗舰实力,AI加持更出彩:高颜值超薄手机推荐全能款
颜值与便携并重的当下,高颜值超薄手机推荐成用户核心选购诉求,优质机型需兼顾纤薄设计、出众颜值、旗舰性能与智能体验,而非单纯轻薄牺牲核心功能
2026-03-09 14:41:00
国网济宁供电公司开展配网“机器人”带电作业
鲁网3月9日讯3月6日,国网济宁供电公司2026年春季检修工作正式启动。与往年不同,今年春检首项带电作业任务由智能配网带电作业机器人独立完成
2026-03-09 15:14:00
长光卫星举行8颗卫星出征仪式 含“邮储银行号”等将择期发射
3月9日,长光卫星技术股份有限公司在吉林省航天信息产业园举行“邮储银行号”卫星、“吉星”高分07A02星、“吉星”高分07A04星
2026-03-09 15:26:00
贵州普瑞眼科启动近视防控挑战赛
多彩贵州网讯(本网记者 罗晟鸣)为积极响应国家近视防控政策,3月8日,贵州普瑞眼科医院正式启动2026近视防控挑战赛,以医院特色“三维一体近视防控体系”为核心
2026-03-09 15:38:00
女性成为中坚力量,携程助力近2.7万女性灵活就业
文旅产业高质量发展的浪潮中,女性正以多元姿态成为行业稳就业、促创新的核心中坚力量。2025年,携程依托平台生态累计带动文旅领域灵活就业超 12万人
2026-03-09 15:44:00
胶东在线3月9日讯(记者卢伟霞)“我们的工作职责就是对烟台移动的核心网络进行维护和管理,工作质量直接影响着全市上百万用户的用网体验
2026-03-09 16:56:00
海信发布世界杯定制冰箱 海信璀璨650U8以真空磁场技术领跑保鲜赛道
随着2026年美加墨世界杯的脚步日益临近,全球球迷的热情已被点燃。3月5日,海信冰箱正式推出了世界杯定制产品—海信璀璨650U8真空头等舱冰箱
2026-03-09 14:03:00
麦当劳开启2026年派Day欢庆,苹果香蕉双拼派限时上新
鲁网3月9日讯麦当劳中国宣布正式开启第十二届“派Day”。即日起至2026年3月15日,麦当劳派Day以“心想派成,吃派就对”为主题
2026-03-09 14:03:00
巾帼绽芳华 农商共相伴—博兴农商银行开展三八妇女节主题活动
鲁网3月9日讯春风拂暖,花开正好,在第116个“三八”国际妇女节来临之际,博兴农商银行组织辖内网点统一开展“巾帼绽芳华 农商共相伴”主题活动
2026-03-09 14:05:00
国产AI大模型探索普惠化发展新路径
当前,国内生成式人工智能产业已从早期的通用对话能力比拼,进入垂直场景深耕、专业能力攻坚的深水区。如何让大模型从“闲聊助手”转向能真正解决复杂问题的生产工具
2026-03-09 11:14:00
数据要素价值释放年|AI下半场,“大数据工厂”如何赋能千行百业?
近日,国家数据局局长刘烈宏指出:“当前人工智能要往下走,关键在数据;AI下半场,拼的是数据。”如何将海量原始数据转化为人工智能模型可高效吸收的“优质燃料”
2026-03-09 11:43:00