• 我的订阅
  • 科技

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

类别:科技 发布时间:2025-01-27 14:06:00 来源:浅语科技

快科技1月17日消息,在AI领域,DeepSeek带来的影响力,一点也不亚于“六代机”。那么,DeepSeek究竟厉害在哪里?

据新浪科技报道,今日,中国工程院院士、清华大学计算机系教授郑纬民指出了DeepSeek其成功出圈的关键所在。

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

目前,业界对于DeepSeek的喜爱与赞美,主要集中在三个方面。

第一,在技术层面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型,分别实现了比肩OpenAI 4o和o1模型的能力。

第二,DeepSeek研发的这两款模型成本更低,仅为OpenAI 4o和o1模型的十分之一左右。

第三,DeepSeek把这一两大模型的技术都开源了,这让更多的AI团队,能够基于最先进同时成本最低的模型,开发更多的AI原生应用。

DeepSeek是如何实现模型成本的降低的呢?郑纬民指出,“DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降,起到了关键作用。”

他指出,“MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,这成为DeepSeek训练成本低最关键的原因。”

据了解,KV Cache是一种优化技术,常被用于存储人工智能模型运行时产生的token的键值对(即key- value数值),以提高计算效率。

具体而言,在模型运算过程中,KV cache会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的token键值,通过模型运算计算出注意力分数,有效控制被存储token的输入输出,通过“以存换算”避免了多数大模型运算每次都是从第一个token开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露,DeepSeek还解决了“非常大同时非常稀疏的MoE模型”使用的性能难题,而这也成了“DeepSeek训练成本低最关键的原因”。

“DeepSeek比较厉害的是训练MoE的能力,成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。”郑纬民说

此外,DeepSeek还充分利用专家网络被稀疏激活的设计,限制了每个token被发送往GPU集群节点(node)的数量,这使得GPU之间通信开销稳定在较低的水位。

早先,图灵奖得主、主导Meta AI研究的首席科学家杨立昆(Yann LeCun)认为,DeepSeek成功的最大收获并非中国竞争对其他国家带来更大威胁,而是AI开源的价值使任何人都能受益。

“对那些看到DeepSeek表现并认为‘中国在AI领域正超越美国’的人而言,你的解读错了”,杨立昆在Threads写道,“正确解读应是‘开源模型正超越专有模型’”。

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

【本文结束】如需转载请务必注明出处:快科技

责任编辑:朝晖

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-27 17:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

2024中关村论坛闭幕 新质生产力成论坛“热词”
...工智能的触角更多的能够传递到各个领域和各个地方。”中国工程院院士张平中国工程院院士张平认为,新质生产力作为增量过程和技术,以新创质为核心,将为原有市场和新兴市场带来显著的提升
2024-04-29 17:19:00
...差距,专家认为,AI“飞入寻常百姓家”还有一定距离。中国工程院外籍院士、美国卡内基梅隆大学教授、1994年图灵奖获奖者罗杰·瑞迪(Raj Reddy)认为
2024-04-27 21:09:00
本文转自:三亚日报中国工程院院士、中国农业科学院原副院长万建民:构建以企业创新为主体的种业创新体系本报记者 刘盈盈 张慧膑 实习生 桂周琪 何承儒“我这次讲的是关于中国种业创新体
2024-03-18 03:21:00
合肥蜀山区这场“产品发布会” 为何让中国科大校长“欣然而至”
...多校友走进“科大硅谷”当天,来自中国科学技术大学、中国工程院、中国科学院、美国国家工程院的专家及相关企业代表也展开互动交流,共话产业未来与发展。包信和说,经过一年多的建设,“
2023-11-05 12:39:00
未来已来!多国人士将中国视为带动未来产业发展的重要国家
...在接下来全力发展人工智能,他们需要借助中国的经验。美国硅谷人工智能研究院院长皮埃罗·斯加鲁菲表示,新的技术为不同种类的科学开辟了新的可能性。如今,为创新做出贡献的国家并不多,
2024-04-27 14:51:00
2024外滩大会:以开放创新之姿,再架上海科技人文之桥
...Kelly(凯文·凯利),美国硅谷创业教父史蒂夫·霍夫曼,中国工程院院士、阿里云创始人王坚,香港科技大学校董会主席、美国工程院外籍院士沈向洋等多位学界、业界的领军人物,以及来
2024-09-07 17:24:00
周睿:起跑要趁早
...》。在加州大学伯克利分校学习时,周睿遇见了美国国家工程院院士富塚诚义。跟着这位自动化控制界的泰斗,周睿得以涉足自动驾驶、机器人等领域。迄今,周睿已经发表了多篇多模态AI研究和
2023-12-14 06:44:00
宁德时代:今年公司整体的定价策略没有发生变化
...行汽车品牌独立运营。调整首先从比亚迪的研发核心部门工程院开始,目前,工程院正计划成立多个新能源车品牌研究院,包括王朝研究院、海洋研究院、腾势研究院等。(36氪)激战插混市场,
2023-03-17 23:51:00
AI教母李飞飞3个月造出一个独角兽!
...觉信息进行高级推理。公开资料显示,李飞飞系美国国家工程院院士、美国国家医学院院士、美国艺术与科学院院士,任美国斯坦福大学首位红杉讲席教授,以人为本人工智能研究院(HAI)院长
2024-07-18 09:54:00
更多关于科技的资讯: