推理,模型,参数,模型,吞吐量,吞吐头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Hugging Face发布SmolVLM开源 AI 模型：

...VLM 仅使用 1200 个 tokens，而 Qwen2-VL 则使用 1.6 万个 tokens。吞吐量SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色，且处理速度相比较 Qwen2-VL……更多

2024-11-28 09:47:00推理,模型,参数,模型,吞吐量,吞吐

专家模型不要专家并行！微软开源MoE新路径

...密集模型进行了比较，使用相同的硬件测量了它们的训练吞吐量。尽管MoE总的参数量是密集模型的六倍多，但在实验中达到了超过80%的相对吞吐量，证实了使用GRIN MoE方法的模型具有显著的计算扩展潜力。（PS：密集模型的吞吐...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家

CPU,正在被AI时代抛弃？

...系统能够高效处理大量的数据，而CPU的强大计算能力和高吞吐量特性可以很好地满足要求，能够确保推理任务的快速完成。英特尔的测试数据也验证了千帆大模型平台团队的发现，其通过测试证明，单台双路CPU服务器完全可以轻...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

Intel三条线优化阿里云通义千问2模型：720亿参数轻松拿

...i 2，对70亿参数、720亿参数的通义千问2模型的推理和微调吞吐量进行了基准测试，以下为详细性能指标和测试结果：70亿参数通义千问2在单颗Gaudi 2加速器上的推理720亿参数通义千问2在八颗Gaudi 2加速器上的推理通义千问2 FP8在Gaud...……更多

2024-07-18 14:57:00三条,通义,阿里,模型,参数,通义

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...，MixCon 仍能保持较小的 KV 缓存优势（如表 1 所示）。在吞吐量方面，处理长序列时，Conba 层计算效率更高，增加其比例可提高整体吞吐量。基本配置单位是 MixCon 块，由 Conba 或注意力层组合而成，每个层包含注意力模块或 Conba ...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

摆脱Transformer依赖？这家AI初创公司推出国内首个

...果——记忆能力提升3倍、速度提升7倍的同时，实现推理吞吐量的5倍提升。至于为何另辟蹊径，寻求非Transformer的大模型路径，岩芯数智CEO刘凡平指出，以大规模著称的Transformer，在实际应用中的高算力和高成本，让不少中小型...……更多

2024-01-29 06:31:00模型,机制,公司,模型,架构,岩芯

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...领先扩散模型Flux-12B，Sana-0.6B不仅参数小12倍，重要的是吞吐量飙升100倍。以后，低成本的内容创作，Sana才堪称这一领域的王者。下面来看个更复杂的：一艘海盗船被困在宇宙漩涡星云中，通过模拟宇宙海滩旋涡的特效引擎渲染...……更多

2024-10-18 09:49:00英伟,清华,架构,大片,性能,笔记本

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

...1/100，GPT-4的1/360。据介绍，目前MiniCPM-2B在CPU（比GPU计算吞吐量低）上就能跑起来，相较于用GPU才能运行的大模型，能够降低推理成本。与此同时，即便将大小压缩75%，MiniCPM的性能也能做到基本无损耗。在性能上，MiniCPM-2B的中文...……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Soh

...达3400万刀。当时Sohu号称LLM推理性能达到H100的10倍，单价吞吐量更是高达140倍。而就在刚刚，Etced又宣布了炸裂的新消息：已筹到1.2亿美元。就在上周，英伟达的市值达到3.3万亿美元，超过微软成为全球第一。而Etched相信，自己...……更多

2024-06-27 09:25:00小哥,英伟,哈佛,华裔,推理,芯片

英伟达展示blackwell平台，否认推迟上市

...多GPU推理方法是在多个GPU上进行计算，以获得低延迟和高吞吐量，但采用多GPU路线也有其复杂性。多GPU环境中的每个GPU都必须将计算结果发送给每一层的其他GPU，这就需要高带宽的GPU对GPU通信。多GPU推理方法是在多个GPU上进行计...……更多

2024-08-25 06:58:00英伟,平台,英伟,数据中心,桥架,吹风会

月之暗面 Kimi 联合清华大学等开源大模型推理架构 Moo

...以 KVCache 为中心的 PD 分离和以存换算架构，提升了推理吞吐量。近日，为了进一步加速该技术框架的应用与推广，月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等共同发布开源项目...……更多

2024-11-29 09:22:00清华大学,清华,推理,架构,模型,联合

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...究者通过每秒生成的 token 数来评估 Memory3 的解码速度或吞吐量。了解更多内容，请参考原论文。 ……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

大模型步入推理Scaling时代,SambaNova如何挑战

...能力。GPU 有很好的批处理能力（比如从 BS1 到 BS16)，可将吞吐量提高 12 到 15 倍。比如在上图中，当 decoder0 在进行批处理运算时，可以同时从 HBM 读取 decoder1 的参数。 SambaNova 的研究者观察到，SN40L 在 Llama 3.1 70B ……更多

2024-10-21 09:55:00英伟,霸主,推理,模型,地位,时代

英特尔第五代至强可扩展处理器发布：AI推理性能提升42%！

...开启。客户应用实例方面，IBM watsonx.data平台的网络查询吞吐量提高了2.7倍，Palo Alto Networks的基于深度学习模型的威胁检测性能提升了2倍，Gallium Studios游戏工作室Numenta AI平台的推理性能比GPU云实例提高了多达6.5倍。拥有28款……更多

2023-12-16 13:49:00英特,英特尔,推理,处理器,性能,处理

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...问的内容，模型只会激活不同的专家子模块进行推理，在吞吐量一定的情况下，可以更快地完成推理、给出回答。这让Grok-1拥有了更快的生成速度和更低的推理成本，简而言之就是更好的使用体验和性价比。根据xAI公布的数据，...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1

...键值缓存留下大约 28GB 的空间。Feldman 声称，除了极高的吞吐量外，WSE-3 还可以扩展到更高的批量大小。尽管它究竟可以扩展到多大程度并保持每个用户Token的生成率，这家初创公司不愿透露。“我们目前的批次大小经常变化。...……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

支持1024帧、准确率近100％，英伟达「LongVILA」

...遵循任务上的表现。训练与推理系统该研究对训练系统的吞吐量、推理系统的延迟以及支持的最大序列长度进行了定量评估。表 2 显示了吞吐量结果。与 ZIGZAG-RINGATTN 相比，本文系统实现了 2.1 倍至 5.7 倍的加速，性能与 DeepSpeed-U...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

非Transformer架构站起来了!首个纯无注意力大模型,

...处理大小为 1 ，硬件采用 H100 GPU 的设置中测量模型生成吞吐量。结果如下图所示，Falcon Mamba 以恒定的吞吐量生成所有 token，并且 CUDA 峰值内存没有任何增加。对于 Transformer 模型，峰值内存会增加，生成速度会随着生成的 token ...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

面壁智能的端侧大模型面壁MiniCPM正式亮相

...对此面壁智能也在发布会上进行了展示，不同终端设备的吞吐量各有不同，也正是壁MiniCPM的出现，让用户那怕是一部手机，一个消费级显卡也能在端侧流畅跑通大模型。为了更真实的展示面壁MiniCPM在端侧的处理能力，发布现场...……更多

2024-02-01 21:36:00模型,智能,模型,智能,用户,数据

Mamba再次挑战霸主Transformer！首个通用Mam

...k库，对Falcon Mamba和流行的Transformer模型在内存使用和生成吞吐量方面进行了比较。为了公平比较，将所有Transformer模型的词汇大小调整为与Falcon Mamba一致，因为这对模型的内存需求有很大影响。在查看结果之前，先讨论序列中提...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

PyTorch官宣：告别CUDA，GPU推理迎来Triton

...据传输速度更快。与F32相比，英伟达GPU提供的FP16将算术吞吐量提高了8倍，大幅加快了数学受限层的训练速度。此外，PyTorch团队还着重强调，计算全部是依赖OpenAI的Triton语言执行的。Triton是一种用于编写高效自定义深度学习基元...……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

自定义Llama 3.1模型的利器来了！NVIDIA打造生成

...些模型。NIM微服务有助于将Llama 3.1模型部署到生产中，其吞吐量最多可比不使用NIM运行推理时高出2.5倍。从ai.nvidia.com即可了解适用于Llama 3.1模型的NVIDIA NIM推理微服务，以加快将Llama 3.1模型部署到生产级AI的速度。将Llama 3.1 ……更多

2024-07-25 09:30:00代工厂,代工,利器,生成,模型,服务

史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学

...更多的计算能力且利用率非常高，因此可以运行巨大的吞吐量，而不会出现内存带宽瓶颈。软件如何工作在 GPU 和 TPU 上，软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片（如 AMD、Intel、AWS ...……更多

2024-06-27 09:24:00辍学生,哈佛,芯片,速度,芯片,模型

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

...万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型，也是首个支持用单台409...……更多

2024-06-03 20:59:00万维,昆仑,模型,模型,万维,昆仑

苹果大模型，不藏了

...法，来了：先减少闪存传输的数据量，再提高每次传输的吞吐量。先看框架：以手机为例，平时购机时的【12+256G】、【16+512G】，12/16为运行内存，256/512为储存空间。以此类推绝大部分移动设备存储结构，运存空间小，但读取速...……更多

2024-01-06 09:10:00模型,苹果,模型,苹果,数据,处理

大模型“免费”送，厂商们图什么？

...悉，DeepSeek可节省42.5%训练成本，减少93.3%的KV缓存，最大吞吐量提高5.76倍。整体而言，DeepSeek-V2消耗的显存（KVCache）只有同级别Dense模型的1/5-1/100。不过，这并不意味着当下大模型行业的价格战十分正常。2024年5月，谈及大模型...……更多

2024-06-05 10:57:00模型,厂商,模型,企业,成本,商业