• 我的订阅
  • 头条热搜
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
【新智元导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰?又有多...……更多
芯片集群「贵」出天际,10年内单个集群价值将达万亿美元
...求仍然很大。例如,GPT-3需要3x10^23flop的算力来训练,则推理需要3x10^11flop算力。FPGA和ASIC芯片是专为推理量身定制的,在运行人工智能模型方面,比使用GPU更高效。不过,在这股热潮中表现最好的还是英伟达。英伟达的主导地...……更多
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
机器之心报道编辑:泽南、杜伟生成式 AI 推理性价比是 GPU 的 140 倍。大模型时代,全球都缺算力,买铲子的英伟达市值被炒上了天。现在,终于有一家公司带着自己的 AI 芯片来叫板了。今天凌晨,科技圈迎来了一个重要新闻...……更多
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...元导读】史上最快Transformer芯片诞生了!用Sohu跑Llama 70B,推理性能已超B200十倍,超H100二十倍!刚刚,几位00后小哥从哈佛辍学后成立的公司Etached,宣布再融资1.2亿美元。有史以来最快的Transformer芯片,刚刚诞生了?去年21岁哈佛...……更多
745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100
...扩展性更优。据介绍,这款Blackhole AI芯片共拥有768个RISC-V内核,包括16个Big RISC-V内核、752个Baby RISC-V内核,其中大量的Baby RISC-V内核被分别集成在140 个 Tensix 人工智能计算核心当中,241MB的片上SRAM内存和一系列高速连……更多
...比上一代虚拟机性能更强大,可显著提升AI模型的训练和推理速度。同时,微软选择了第四代英特尔XeonScalable处理器作为新一代计算机处理单元。此外,NDH100v5VM还采用了英伟达Quantum-2ConnectX-7InfiniBand技术,每个GPU可提供400Gb/s的带...……更多
AI真·炼丹:整整14天,无需人类参与
...擦出怎样的火花,就很值得期待了。为了科普CPU在AI推理新时代的玩法,量子位开设了《最“in”AI》专栏,将从技术科普、行业案例、实战优化等多个角度全面解读。我们希望通过这个专栏,让更多的人了解英特尔®架构CPU在AI...……更多
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
...市场瞬息万变,需要实时数据处理和决策支持,大模型的推理涉及到大量的矩阵乘法计算,对硬件的矩阵乘法计算能力提出较高要求,计算复杂性可能导致响应时间延迟,不利于实时应用。加之大模型训练和推理过程需要大量的...……更多
Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
...OpenAI 发布了 ο1 系列模型,它那「超越博士水平的」强大推理性能预示着其必将在人们的生产生活中大有作为。但它的使用成本也很高,以至于 OpenAI 不得不限制每位用户的使用量:每位用户每周仅能给 o1-preview 发送 30 条消息,...……更多
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
...存储空间和计算资源就会减少。不过这也意味着,在执行推理时,需要进行混合精度的矩阵乘法运算(mpGEMM),即用低精度的权重和高精度的激活向量进行计算。然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,...……更多
进迭时空宣布开源RISC-V芯片的AI核心技术
...为ARM的20%左右,AI性能得到极大提升。目前,世界主流AI推理生态主要包括英伟达的GPU推理生态和X86的CPU推理生态。K1芯片通过复用X86成熟的AI推理软件栈,把底层核心算子改用RISC-VVector和AI指令,其余部分复用CPU推理软件栈,从...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。至于到底能不能其乐融融,咱就不管了,之所以有此场景...……更多
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
微软开源1bit大模型推理框架!现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现,开源不到一周GitHub已揽获7.9k Star。传统大模型参数以16位浮点数(如FP16或BF16)形...……更多
清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐
一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...er模型取得了比扩散模型更好的结果,只有900M参数,但在推理时间上比StableDiffusion1.4版本快3倍,比Imagen-3B和Parti-3B快10倍。下图是Muse与DALL・E2和Imagen的生成效果对比:文本-3D模型生成主要代表作有Dreamfusion、Magic3D……更多
专访ADI:探索AI MCU应用边界,集成CNN硬件加速器将是边缘AI处理的技术趋势
...;人工智能MCU:脱胎于第一类低功耗MCU,特色是能够将AI推理从云端推向边缘端,可应用于智能家居、人脸打卡、语音控制等应用。 ADI微控制器产品概览围绕MCU产品,ADI还提供了一系列支持资源方便简化用户的设计,包括专业...……更多
一行代码训练成本再降30%,AI大模型混合精度训练再升级
...窗口内的scaling值来估计当前scaling,同时将scaling的更新和矩阵乘法(gemm)融合起来。这种计算方法效率较高,但由于是估算的scaling,所以对收敛性影响较大。 实时scaling直接采用当前的张量值来计算scaling,所以计算效率较低,但...……更多
国产大模型第一梯队玩家,为什么pick了CPU?
...用计算能力去释放整个系统的潜力。为了科普CPU在AI推理新时代的玩法,量子位开设了《最“in”AI》专栏,将从技术科普、行业案例、实战优化等多个角度全面解读。我们希望通过这个专栏,让更多的人了解CPU在AI推理加速,甚...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小模型,比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化(quantization)。ML工程师Maarten Grootendorst撰...……更多
AMD发布最强AI芯片,对标英伟达Blackwell,2025年上市
...于 AMD CDNA 3 架构构建,旨在为涵盖基础模型训练、微调和推理等要求苛刻的 AI 任务提供性能和效率。AMD Instinct MI325X 加速器提供了业界领先的内存容量和带宽,256GB HBM3E 支持 6.0TB/s,比英伟达 H200 提供了高 1.8 倍的容量和 1.3 倍……更多
Rivos解决和苹果纠纷后融资2.5 亿美元,瞄准AI打造RISC-V芯片
...C-V CPU 具体的处理内容,应该和谷歌 Tensor 处理器的 SiFive 内核,用于管理硬件,以及通过矩阵乘法单元进行计算。 IT之家从报道中获悉,Rivos 的芯片还将采用台积电的 3nm 工艺技术制造,该公司首席执行官普尼特・库马尔(Puneet...……更多
ai生命周期:ai训练和ai推理的完美结合
...命周期包括最重要的两个部分,一个是AI训练,一个是AI推理。其中,AI训练就是让模型识别数据模式,是数据和处理最密集的部分,需要大规模的算力。在这一阶段,往往优先使用大规模并行的GPU加速器或专用的AI加速器,有时...……更多
AMD最强AI芯片发布:性能是英伟达H100的1.3倍!
...争对手(H100)相当,并提供有竞争力的价格/性能,同时在推理工作负载方面表现出色。 在功耗方面,AMDMI300X的额定功率为750W,比MI250X的500W增加了50%,比NVIDIAH200多了50W。ROCm 6.0开放软件平台AMD还推出了ROCm6.0开放软件平台,该最新...……更多
大模型下沉,汽车需要存算一体芯片|超级观点
...模型,且训练需求越来越大。应用生态逐渐成熟,大模型推理的算力需求上涨,算力增长速度与算力供给速度会出现极大不平衡。IDC 数据预测,到2026 年,中国在人工智能硬件市场的IT 投资将超过150 亿美元。而AMD CEO苏姿丰在发...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...:「算力这块,你可以用别的芯片,但是这些芯片用来做推理还 OK,做训练的话还要等几年的样子,英伟达还是处在一个垄断的地位。」但基于实证的对比研究却往往又会给出不一样的答案,比如在同一个演讲中,李沐还提到了...……更多
英伟达推出新一代芯片,“AI+”产业有望加速发展
...中国经济进入下一代增长奇迹的轨道,也将为投资者带来新时代的发展红利。面对这样前程远大、短期路径又带有未知色彩的领域,数字经济ETF(159658)提供了很好的投资工具。这只产品是跟踪中证数字经济主题指数的ETF产品,...……更多
Sigmoid注意力一样强,苹果开始重新审视注意力机制
...gmoid 注意力实现 ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理内核速度比 FLASHATTENTION2 提高了 17%。 跨语言、视觉和语音的实验表明,合理归一化的 sigmoid 注意力与 softmax 注意力在广泛的领域和规模上性能相当……更多
从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了
...法分别将 BERT、GPT-Neo、BigBird 和 Longformer 在当前 GPU 上的推理速度加快了 1.25 倍、1.12 倍、1.57 倍和 1.65 倍,显著减少了片外内存流量。SoftMax。2022 年,Choi 等人提出了一种通过重组 Softmax 层加速 Trans……更多
谷歌将RISC-V作为其定制AI芯片:为TPU提供内核设计
...,SiFive有望与谷歌签下另一份重要合同,为后者的TPU提供内核设计,从而推动收入的增加。SiFive对于谷歌用于人工智能(AI)服务器的第二代芯片寄予厚望,不过暂时还不清楚双方交易的细节,有可能成为未来SiFive的重要收入来...……更多
英伟达深夜炸场,世界最强AI芯片H200震撼发布,性能飙升90%
...,这两款芯片还是互相兼容的。这意味着,使用H100训练/推理模型的企业,可以无缝更换成最新的H200。全世界的AI公司都陷入算力荒,英伟达的GPU已经千金难求。英伟达此前也表示,两年一发布的架构节奏将转变为一年一发布。 ...……更多
更多关于科技的资讯:
东进技术获评“专精特新”企业,夯实基础密码产品提供商地位
近日,东进技术凭借在基础密码产品领域的深厚积累和突出表现,成功获评2024年度深圳市“专精特新”企业。这一荣誉不仅是对东进技术多年来坚持自主创新
2025-02-24 14:45:00
17座站,启源芯动力打造闽南金三角电动重卡充换电网络
福建厦漳泉地区,土地面积仅占福建全省的五分之一,却贡献了全省46%GDP产值。在这片"闽南金三角"地区,启源芯动力以17座新能源电动重卡充换电站串联起三地港口物流
2025-02-24 14:45:00
编者按:数字杭州,活力奔涌。超前的战略眼光,让杭州在创新领域率先起飞,从“杭州六小龙”引发的全球关注,堪称“杭州现象”
2025-02-24 14:56:00
聚焦热门话题,150+采购团,BTE 2025助企高效对接
当全球生物医药产业迎来第三次技术革命浪潮,一场汇聚全球顶尖智慧的生物技术行业盛会即将启幕。由蛋白药研究会、广东省生物产业协会
2025-02-24 14:59:00
《电商消费维权指数2024年度报告》发布:多重因素引发指数波动水平整体抬升
中国消费者报报道(记者桑雪骐)2024年,新的消费模式、消费业态和消费场景继续成为拉动消费增长的重要力量。《中国消费者报》与淘天集团日前联合发布的《电商消费维权指数2024年度报告》(以下简称《年度报告》)显示
2025-02-24 14:59:00
赛宁网安BAS+DeepSeek:一支永不跳槽的红队专家
DeepSeek自发布以来,凭借低成本训练模式和出色的性能表现,迅速引起全球广泛关注。赛宁网安作为一家专注攻防对抗和AI技术的新质数字安全公司
2025-02-24 15:00:00
京东为外卖骑手缴纳五险一金,首推行业变革
当一个中年人成为骑手,他将会面临什么?大潘从河南老家来北京跑外卖已有超过十年。从饭店的外送,到百团大战,他流转于各个平台
2025-02-24 15:01:00
果粉期待!M4版MacBook Air下月上市:性能与Pro相差无几
快科技2月24日消息,据Mark Gurman最新透露,苹果正准备在3月推出搭载M4芯片的13英寸和15英寸MacBook Air
2025-02-24 15:02:00
宇宙最大单一结构被发现:横跨13亿光年、质量200万亿倍于太阳
快科技2月24日消息,最近,天文学家发现了迄今为止的最大宇宙结构,命名为“奇普”(Quipu)。这个超级单一结构由大量的星系团组成
2025-02-24 15:02:00
“董明珠”已被格力注册!董明珠本人无法用自己名字变现
快科技2月24日消息,据新浪财经,今日,格力电器市场总监朱磊谈到了最近受到热议的格力全新战略品牌“董明珠健康家”。朱磊表示
2025-02-24 15:02:00
汽车女网红“小宁姐姐”被冒充卖丝袜引热议:准备走法律程序
2月24日消息,近日汽车博主“小宁姐姐”发视频称,近期很有粉丝反馈,有不法分子冒充她卖丝袜并获利。多次投诉无果后,小宁选择报警
2025-02-24 15:02:00
微软CEO:Xbox将运用生成式AI开发一系列视频游戏
快科技2月24日消息,据报道,近日,微软首席执行官萨蒂亚·纳德拉(Satya Nadella)透露,公司计划推出一系列利用最新生成式人工智能模型“Muse”开发的视频游戏
2025-02-24 15:02:00
Uber向特斯拉抛出橄榄枝遭到拒绝 马斯克:我们要独立发展
快科技2月24日消息,特斯拉CEO埃隆·马斯克近日重申了公司独立部署自动驾驶出租车服务的计划,并明确表示对通过Uber平台推广特斯拉自动驾驶出租车服务不感兴趣
2025-02-24 15:02:00
喊停加盟,喜茶刹得住新茶饮的“内卷”吗?
新茶饮行业已经从红海变成“紫海”,各品牌还在卷规模、卷价格、卷联名、卷营销、卷上新,喜茶却选择了主动后退一步。这种后退必然会带来阵痛
2025-02-24 15:47:00
华为3月将发布“想不到的产品”:博主爆料称是全新折叠屏
快科技2月24日消息,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东预告,华为将在3月份推出一款“想不到的产品”
2025-02-24 16:02:00