• 我的订阅
  • 科技

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

类别:科技 发布时间:2025-01-29 18:07:00 来源:浅语科技

英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力?

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

硬件媒体Tom‘s Hardware带来开年最新热议:

DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。

来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。

变相绕过了硬件对通信速度的限制。

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

△ DeepSeek-V3 Technical Report

这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。

PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。

这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。

换句话说,他们把优化做到了极致。

有网友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易员。

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

一位亚马逊工程师提出灵魂质问:CUDA是否还是护城河?这种顶尖实验室可以有效利用任何GPU。

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

甚至有网友开始畅想,如果“新源神”DeepSeek开源了一个CUDA替代方案……

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

那么事情是否真会如此?

DeepSeek真的绕过了CUDA?

首先要明确的是,PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。

PTX类似汇编语言,代码大概长这样:

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

△来自tinkerd.net

在实际编译流程中,CUDA代码首先被编译为PTX代码,PTX代码再被编译为目标GPU架构的机器码(SASS,Streaming ASSembler)。

CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。

另外,这种两步编译流程也使得CUDA程序具有跨架构的兼容性和可移植性。

反过来说,像DeepSeek这种直接编写PTX代码的做法,首先不仅非常复杂,也很难移植到不同型号的GPU。

有从业者表示,针对H100优化的代码迁移到其他型号上可能效果打折扣,也可能根本不工作了。

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

所以说,DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。

事实上,我们也能看到DeekSeek已经与AMD、华为等团队紧密合作,第一时间提供了对其他硬件生态的支持。

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

One More Thing

还有人提出,如此一来,让AI擅长编写汇编语言是AI自我改进的一个方向。

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——

但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。

Llama.cpp项目中的一个新PR请求,使用SIMD指令(允许一条指令同时处理多个数据)显著提升WebAssembly在特定点积函数上的运行速度,提交者表示:

这个PR中的99%的代码都是由DeekSeek-R1编写的。我唯一做的就是开发测试和编写提示(经过一些尝试和错误)。

是的,这个PR旨在证明大模型现在能够编写良好的底层代码,甚至能够优化自己的代码。

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

llama.cpp项目的创始人检查了这段代码后表示“比预期的更爆炸”。

“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗

责任编辑:黑白

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-30 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

AI芯片战事升级!英伟达筑高围墙,市值猛追苹果
...拉大了与其它芯片公司的距离。与此同时,英伟达的生态护城河越挖越深,不久前突然增加了CUDA限制条款。业内人士认为,这是英伟达维护自己市场“垄断”地位的一种表现,虽然当前对其它
2024-03-20 09:51:00
英伟达股东大会:黄仁勋3420万美元薪酬投票通过 汽车领域潜力巨大
...能将带来的改变、公司的多元化战略、英伟达的人工智能护城河等内容。划重点:1.股东大会涉及四项议题均投票通过,其中一项为批准我们在委托书中披露的2024财年指定执行官的薪酬。按
2024-06-27 13:42:00
绕开英伟达护城河CUDA!消息称DeepSeek准备适配国产GPU
...国内媒体报道称,DeepSeek在研发大模型时绕过了英伟达的护城河CUDA,这让美国不少巨头们感到了很大的威胁,而现在这件事才刚刚开始
2025-02-02 08:10:00
芯片“刺客”冒头,万亿英伟达还能狂飙多久?
...的市值不应超过5000亿美元。英伟达试图挖一条足够深的护城河,但第一道裂缝已经出现。作者丨黄鹏从区块链、元宇宙、新能源汽车到AIGC,近年来科技界的每一个风口,都像是接力赛似
2023-06-14 11:15:00
比亚迪的规模化、华为的智驾、小米的营销,中国汽车只有三道护城河了?
...为的智驾和小米的营销,成为了中国汽车行业仅剩的三道护城河。看到这个观点,一方面我们应该感到欣慰,中国汽车总算有像模像样的护城河了。但另一方面,深思之后会发现,这一观点一半靠谱
2025-01-06 21:16:00
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...ASIC的速度要比GPU快很多个数量级。 Transformer拥有巨大的护城河Etched.ai的几位创始人表示
2024-06-27 09:25:00
...水平。而倘若这一技术属实,或将撼动英伟达构筑已久的护城河。图片截图来自 DeepSeek v3 技术报告不过,PTX 虽然能极大地优化性能
2025-01-29 21:29:00
摩尔线程MTT S80测试:国产消费级显卡的天花板
...其海量的图形专利以及完善的生态系统构成了极其坚固的护城河,想要跨过这条护城河的难度可想而知,而摩尔线程可以说是试图跨过这条护城河的勇士。 从上述的测试中可以看到,对于部分主
2023-11-06 20:13:00
英伟达为什么越涨越“便宜”?丨看天下
...情绪主要来源于英伟达的显著的技术优势。这条宽阔的“护城河”要归功于其围绕GPU的无形资产,以及围绕其专有软件的建设,例如用于AI工具的Cuda平台等。当然,担忧也同时存在。其
2024-03-12 16:24:00
更多关于科技的资讯: