新时代,推理,内核,矩阵,乘法,英伟头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

PyTorch官宣：告别CUDA，GPU推理迎来Triton

【新智元导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多...……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学

机器之心报道编辑：泽南、杜伟生成式 AI 推理性价比是 GPU 的 140 倍。大模型时代，全球都缺算力，买铲子的英伟达市值被炒上了天。现在，终于有一家公司带着自己的 AI 芯片来叫板了。今天凌晨，科技圈迎来了一个重要新闻...……更多

2024-06-27 09:24:00辍学生,哈佛,芯片,速度,芯片,模型

00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Soh

...元导读】史上最快Transformer芯片诞生了！用Sohu跑Llama 70B，推理性能已超B200十倍，超H100二十倍！刚刚，几位00后小哥从哈佛辍学后成立的公司Etached，宣布再融资1.2亿美元。有史以来最快的Transformer芯片，刚刚诞生了？去年21岁哈佛...……更多

2024-06-27 09:25:00小哥,英伟,哈佛,华裔,推理,芯片

745TFLOPS！Tenstorrent推768核RISC

...扩展性更优。据介绍，这款Blackhole AI芯片共拥有768个RISC-V内核，包括16个Big RISC-V内核、752个Baby RISC-V内核，其中大量的Baby RISC-V内核被分别集成在140 个 Tensix 人工智能计算核心当中，241MB的片上SRAM内存和一系列高速连……更多

2024-08-30 09:52:00英伟,芯片,内核,英伟,芯片,以太

微软发布Azure ND H100 v5虚拟机

...比上一代虚拟机性能更强大，可显著提升AI模型的训练和推理速度。同时，微软选择了第四代英特尔XeonScalable处理器作为新一代计算机处理单元。此外，NDH100v5VM还采用了英伟达Quantum-2ConnectX-7InfiniBand技术，每个GPU可提供400Gb/s的带...……更多

2023-11-21 20:20:00微软,英伟,微软,模型,带宽,速度

AI真·炼丹：整整14天，无需人类参与

...擦出怎样的火花，就很值得期待了。为了科普CPU在AI推理新时代的玩法，量子位开设了《最“in”AI》专栏，将从技术科普、行业案例、实战优化等多个角度全面解读。我们希望通过这个专栏，让更多的人了解英特尔®架构CPU在AI...……更多

2024-07-01 19:47:00人类,英特,英特尔,制药,处理,处理器

“技术故障”背刺巴菲特，金融大模型到底靠不靠谱？

...市场瞬息万变，需要实时数据处理和决策支持，大模型的推理涉及到大量的矩阵乘法计算，对硬件的矩阵乘法计算能力提出较高要求，计算复杂性可能导致响应时间延迟，不利于实时应用。加之大模型训练和推理过程需要大量的...……更多

2024-06-28 23:00:00巴菲,巴菲特,模型,故障,金融,技术

Nature新研究提出新型忆阻器，比Haswell CPU高

...OpenAI 发布了 ο1 系列模型，它那「超越博士水平的」强大推理性能预示着其必将在人们的生产生活中大有作为。但它的使用成本也很高，以至于 OpenAI 不得不限制每位用户的使用量：每位用户每周仅能给 o1-preview 发送 30 条消息，...……更多

2024-09-18 11:44:00研究,矩阵,对称,电路,运算,论文

手机跑大模型提速4-5倍！微软亚研院开源新技术，有CPU就行

...存储空间和计算资源就会减少。不过这也意味着，在执行推理时，需要进行混合精度的矩阵乘法运算（mpGEMM），即用低精度的权重和高精度的激活向量进行计算。然而，现有的系统和硬件并不原生支持这种混合精度的矩阵乘法，...……更多

2024-08-10 09:52:00新技,微软,提速,新技术,模型,手机

进迭时空宣布开源RISC-V芯片的AI核心技术

...为ARM的20%左右，AI性能得到极大提升。目前，世界主流AI推理生态主要包括英伟达的GPU推理生态和X86的CPU推理生态。K1芯片通过复用X86成熟的AI推理软件栈，把底层核心算子改用RISC-VVector和AI指令，其余部分复用CPU推理软件栈，从...……更多

2024-04-29 15:06:00芯片,核心,时空,技术,芯片,志坚

3天把Llama训成Mamba，性能不降，推理更快！

...Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。先来看一张其乐融融的图片（一眼AI）：右边的小羊驼代表Llama，而左边的蛇（Mamba）也是我们的老熟人了。至于到底能不能其乐融融，咱就不管了，之所以有此场景...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

微软开源爆火1bit大模型推理框架！千亿参数模型量化后单CP

微软开源1bit大模型推理框架！现在1000亿参数大模型量化后单CPU可跑，速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现，开源不到一周GitHub已揽获7.9k Star。传统大模型参数以16位浮点数（如FP16或BF16）形...……更多

2024-10-23 12:05:00模型,微软,推理,框架,参数,模型

清华开源混合精度推理系统MixQ：大模型近无损量化并提升推理

一键部署LLM混合精度推理，端到端吞吐比AWQ最大提升6倍！清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理，可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多

2024-10-22 09:57:00推理,清华,吞吐,精度,混合,模型

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...er模型取得了比扩散模型更好的结果，只有900M参数，但在推理时间上比StableDiffusion1.4版本快3倍，比Imagen-3B和Parti-3B快10倍。下图是Muse与DALL・E2和Imagen的生成效果对比：文本-3D模型生成主要代表作有Dreamfusion、Magic3D……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

速度惊人，手机跑stablediffusion，12秒出图

...些模型在配备GPU的移动设备上实现了迄今为止报道的最快推理延迟。在不使用INT8量化的情况下，对于一张512x512的图片进行20次迭代，StableDiffusion1.4的推理延迟低于12秒。具体是如何实现的呢？GPU感知优化在论文中，研究人员侧重...……更多

2023-04-28 17:14:00出图,速度,手机,模型,研究人员,研究

专访ADI：探索AI MCU应用边界，集成CNN硬件加速器将

...；人工智能MCU：脱胎于第一类低功耗MCU，特色是能够将AI推理从云端推向边缘端，可应用于智能家居、人脸打卡、语音控制等应用。 ADI微控制器产品概览围绕MCU产品，ADI还提供了一系列支持资源方便简化用户的设计，包括专业...……更多

2023-01-20 08:49:00加速器,边界,专访,边缘,趋势,硬件

一行代码训练成本再降30%，AI大模型混合精度训练再升级

...窗口内的scaling值来估计当前scaling，同时将scaling的更新和矩阵乘法(gemm)融合起来。这种计算方法效率较高，但由于是估算的scaling，所以对收敛性影响较大。实时scaling直接采用当前的张量值来计算scaling，所以计算效率较低，但...……更多

2024-09-26 13:34:00训练,精度,一行,混合,模型,成本

国产大模型第一梯队玩家，为什么pick了CPU？

...用计算能力去释放整个系统的潜力。为了科普CPU在AI推理新时代的玩法，量子位开设了《最“in”AI》专栏，将从技术科普、行业案例、实战优化等多个角度全面解读。我们希望通过这个专栏，让更多的人了解CPU在AI推理加速，甚...……更多

2024-07-10 20:45:00梯队,模型,国产,玩家,模型,英特

AMD发布最强AI芯片，对标英伟达Blackwell，202

...于 AMD CDNA 3 架构构建，旨在为涵盖基础模型训练、微调和推理等要求苛刻的 AI 任务提供性能和效率。AMD Instinct MI325X 加速器提供了业界领先的内存容量和带宽，256GB HBM3E 支持 6.0TB/s，比英伟达 H200 提供了高 1.8 倍的容量和 1.3 倍……更多

2024-10-12 09:49:00英伟,芯片,性能,支持,加速器,处理

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型

...型的参数可能超过数十亿，通常需要显存较大的GPU来加速推理过程。因此，越来越多的研究开始关注如何缩小模型，比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化（quantization）。ML工程师Maarten Grootendorst撰...……更多

2024-08-01 09:38:00干货,可视化,模型,工程师,指南,工程

Rivos解决和苹果纠纷后融资2.5 亿美元，瞄准AI打造R

...C-V CPU 具体的处理内容，应该和谷歌 Tensor 处理器的 SiFive 内核，用于管理硬件，以及通过矩阵乘法单元进行计算。 IT之家从报道中获悉，Rivos 的芯片还将采用台积电的 3nm 工艺技术制造，该公司首席执行官普尼特・库马尔（Puneet...……更多

2024-04-17 13:36:00融资,纠纷,芯片,苹果,加速器,芯片

ai生命周期：ai训练和ai推理的完美结合

...命周期包括最重要的两个部分，一个是AI训练，一个是AI推理。其中，AI训练就是让模型识别数据模式，是数据和处理最密集的部分，需要大规模的算力。在这一阶段，往往优先使用大规模并行的GPU加速器或专用的AI加速器，有时...……更多

2024-03-15 02:13:00推理,周期,训练,生命,推理,能效

AMD最强AI芯片发布：性能是英伟达H100的1.3倍！

...争对手(H100)相当，并提供有竞争力的价格/性能，同时在推理工作负载方面表现出色。在功耗方面，AMDMI300X的额定功率为750W，比MI250X的500W增加了50%，比NVIDIAH200多了50W。ROCm 6.0开放软件平台AMD还推出了ROCm6.0开放软件平台，该最新...……更多

2023-12-07 22:24:00英伟,芯片,性能,性能,芯片,内存

英伟达帝国的一道裂缝

...算，最终得到一个输出值，跟图形渲染一样都需要大量的矩阵运算——这恰巧就是GPU最擅长的东西。一个典型的深度神经网络架构；图源：towards data science不过图像显示虽然数据处理量庞大，但大部分步骤是固定的，而深度神...……更多

2023-05-18 11:06:00英伟,帝国,裂缝,一道,英伟,芯片

大模型下沉，汽车需要存算一体芯片｜超级观点

...模型，且训练需求越来越大。应用生态逐渐成熟，大模型推理的算力需求上涨，算力增长速度与算力供给速度会出现极大不平衡。IDC 数据预测，到2026 年，中国在人工智能硬件市场的IT 投资将超过150 亿美元。而AMD CEO苏姿丰在发...……更多

2023-12-07 19:25:00芯片,模型,观点,一体,汽车,芯片

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...：「算力这块，你可以用别的芯片，但是这些芯片用来做推理还 OK，做训练的话还要等几年的样子，英伟达还是处在一个垄断的地位。」但基于实证的对比研究却往往又会给出不一样的答案，比如在同一个演讲中，李沐还提到了...……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

英伟达推出新一代芯片，“AI+”产业有望加速发展

...中国经济进入下一代增长奇迹的轨道，也将为投资者带来新时代的发展红利。面对这样前程远大、短期路径又带有未知色彩的领域，数字经济ETF（159658）提供了很好的投资工具。这只产品是跟踪中证数字经济主题指数的ETF产品，...……更多

2024-03-21 10:31:00英伟,新一代,芯片,产业,发展,科创

Sigmoid注意力一样强，苹果开始重新审视注意力机制

...gmoid 注意力实现 ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理内核速度比 FLASHATTENTION2 提高了 17%。跨语言、视觉和语音的实验表明，合理归一化的 sigmoid 注意力与 softmax 注意力在广泛的领域和规模上性能相当……更多

2024-09-19 12:02:00注意力,机制,苹果,注意力,研究,近器

从架构、工艺到能效表现，全面了解LLM硬件加速，这篇综述就够

...法分别将 BERT、GPT-Neo、BigBird 和 Longformer 在当前 GPU 上的推理速度加快了 1.25 倍、1.12 倍、1.57 倍和 1.65 倍，显著减少了片外内存流量。SoftMax。2022 年，Choi 等人提出了一种通过重组 Softmax 层加速 Trans……更多

2024-09-21 09:37:00能效,架构,工艺,硬件,加速器,能效