推理,清华,吞吐,精度,混合,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

一键部署LLM混合精度推理，端到端吞吐比AWQ最大提升6倍！清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理，可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多

2024-10-22 09:57:00推理,清华,吞吐,精度,混合,模型

CPU,正在被AI时代抛弃？

...以通过语音识别技术被录入到病例系统中，随后大模型AI推理技术辅助进行智能总结和诊断，医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间，也保护了患者隐私；在法院、律所等业务场景中，律师通过大模型对...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

月之暗面 Kimi 联合清华大学等开源大模型推理架构 Moo

...学 MADSys 实验室 2024 年 6 月联合发布了 Kimi 底层的 Mooncake 推理系统设计方案。该系统基于以 KVCache 为中心的 PD 分离和以存换算架构，提升了推理吞吐量。近日，为了进一步加速该技术框架的应用与推广，月之暗面 Kimi 和清华大...……更多

2024-11-29 09:22:00清华大学,清华,推理,架构,模型,联合

一行代码训练成本再降30%，AI大模型混合精度训练再升级

...8卡H800上训练LLaMA2-7B，Colossal-AI FP8对比Colossal-AI BF16有35%的吞吐提升，对比Torch FSDP BF16有94%的吞吐提升。在单机8卡H800上训练LLaMA2-13B，Colossal-AI FP8对比Colossal-AI BF16有39%的吞吐提升……更多

2024-09-26 13:34:00训练,精度,一行,混合,模型,成本

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...仅解码器LLM）作为文本编码器，以增强对提示词的理解和推理能力。尽管T2I生成模型多年来取得了显著进展，但大多数现有模型仍依赖CLIP或T5进行文本编码，这些模型往往缺乏强大的文本理解和指令跟随能力。与CLIP或T5不同，Gem...……更多

2024-10-18 09:49:00英伟,清华,架构,大片,性能,笔记本

超星未来梁爽：软硬件协同优化，赋能AI 2.0新时代

...任务，这一基础模型应该具备感知万物、知晓常识和理解推理的能力，智能驾驶、机器人的基础模型本质上是同一类基础模型。端到端与大模型上车进行时智能汽车是迈向通用机器人的必要阶段近年来，智驾系统正在从传统...……更多

2024-07-22 13:00:00超星,梁爽,软硬,新时代,模型,超星

优刻得首个「国产千卡智算集群」落地，支持智源千亿大模型训练

...环境，可支持超千卡规模、千亿参数级别的大模型训练和推理任务，旨在突破算力瓶颈，加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计，提供低延迟、高吞吐、高可用的IB组网环境，支持GDR技术，使...……更多

2024-06-27 19:01:00集群,落地,模型,国产,训练,支持

清华团队提出新型光计算架构，光训练速度提升1个数量级

...智能计算的“潜力股”，为后摩尔时代带来新的希望。推理和训练是 AI 大模型核心能力的两个重要阶段，正是看到了这一点，该团队在推理和训练方面进行了同期的并行研究。今年 4 月，他们在 Science 报道了通用智能光计算芯...……更多

2024-08-09 09:57:00量级,清华,架构,个数,团队,速度

PyTorch官宣：告别CUDA，GPU推理迎来Triton

...PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「CUDA版本必须与...……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

直面大模型“大成本”挑战，如何提高算力效率？

...算效率和算力开销两大问题成为新的行业焦点。对大模型推理成本的优化，可通过很多技术手段实现。首先是模型本身，模型结构、训练方法都可以持续改进，包括业界很关注的MoE(混合专家模型)，就是优化推理成本很好的解决...……更多

2024-06-03 14:07:00模型,效率,成本,模型,推理,成本

手机跑大模型提速4-5倍！微软亚研院开源新技术，有CPU就行

...存储空间和计算资源就会减少。不过这也意味着，在执行推理时，需要进行混合精度的矩阵乘法运算（mpGEMM），即用低精度的权重和高精度的激活向量进行计算。然而，现有的系统和硬件并不原生支持这种混合精度的矩阵乘法，...……更多

2024-08-10 09:52:00新技,微软,提速,新技术,模型,手机

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...精度，还显著降低了计算负担，完美解决了时序大模型在推理阶段的计算瓶颈。2. 灵活的预测范围：Time-MoE支持任意长度的输入和输出范围，能够处理从短期到长期的各种时序预测任务，实现了真正的全域时序预测。3. 全球最大...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...在一系列标准学术基准测试中评估 Conba 性能，包括常识推理任务（如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge）、阅读理解任务（如 BoolQ、QuAC）、聚合基准测试（如 MMLU、BBH），采用不同的学习策略。MixCon 性能与类似或更大……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新M

...模型的精度，同时保持了线性注意力优越的并行计算与高推理速度。论文链接：https://arxiv.org/abs/2405.16605 代码链接：https://github.com/LeapLabTHU/MLLA 视频讲解：https://www.bilibili……更多

2024-12-11 09:53:00阿里,清华,线性,视角,注意力,模型

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...的「我在飞」，进一步询问的话，此外，video-SALMONN还能推理出男人的名字是「杰克」。我们都知道，正是这两句对白成就了这个经典场景，而video-SALMONN恰恰抓住了这个场景的精髓所在！再来一段《疯狂动物城》的动画片段：看...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

1-bit大模型还能再突破！新一代BitNet架构启用4位激

...为可以吃到4位（INT4/FP4）内核的计算红利，实现了更快的推理速度。BitNet a4.8仅激活55%的参数，并支持3 bit KV cache，进一步提升了大规模LLM部署和推理的效率。BitNet a4.8模型架构模型的整体架构如图1所示，BitNet a4.8采用了与BitNet b……更多

2024-12-06 09:55:00架构,激活,新一代,模型,突破,激活

英伟达展示blackwell平台，否认推迟上市

...来越多，数据中心将需要更多的计算和更低的延迟。多GPU推理方法多GPU推理方法是在多个GPU上进行计算，以获得低延迟和高吞吐量，但采用多GPU路线也有其复杂性。多GPU环境中的每个GPU都必须将计算结果发送给每一层的其他GPU，...……更多

2024-08-25 06:58:00英伟,平台,英伟,数据中心,桥架,吹风会

算力直降97%，GPT-3存储只用20MB？！这篇新论文火了

...开始，作者提到前人研究已经表明，大语言模型（LLM）的推理可以在1.58-bit精度下进行，且不会有任何性能损失。比如下面这篇论文，有人引入了1-bit的LLM变体（即BitNet b1.58），其中LLM的每个参数或权重都是三元的{-1, 0, 1}。它在...……更多

2024-12-30 09:11:00文火,新论,存储,训练,小哥,模型

AI真·炼丹：整整14天，无需人类参与

...能上有着显著的增强，还结合大容量末级缓存使AlphaFold2推理过程中关键的张量吞吐获得了大幅提升。英特尔®至强®CPUMax系列处理器其次，由于AlphaFold2所采用的深度学习模型规模巨大，推理过程中的张量运算不仅量大，且维度...……更多

2024-07-01 19:47:00人类,英特,英特尔,制药,处理,处理器

晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1

...Hot Chips 2024大会上，Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示，WSE-3依然是采用了一整张12英寸晶圆来制作，基于台积电5nm制程，芯片面积为46225平方毫米，拥有的晶体管数量达到了4万亿个，拥有90...……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

安谋科技下代“周易”NPU成功部署DeepSeek-R1：速

...的最高处理速度可达每秒40 tokens，并支持动态长度的模型推理输入。这也展现了安谋科技软件栈对大模型的成熟支持、深度优化，包括动态推理优化和硬件算力潜力的挖掘，从而显著提升推理速度和吞吐量。目前，软件栈已支持...……更多

2025-02-14 13:22:00周易,高达,速度,成功,科技,周易

Intel三条线优化阿里云通义千问2模型：720亿参数轻松拿

...。Intel还采用KV Caching、PagedAttention机制和张量并行，提高推理效率。Intel的硬件也可利用软件框架和工具包进行加速，并获得出色的大模型推理性能，包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging F……更多

2024-07-18 14:57:00三条,通义,阿里,模型,参数,通义