推理,模型,参数,模型,吞吐量,吞吐头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Hugging Face发布SmolVLM开源 AI 模型：

...VLM 仅使用 1200 个 tokens，而 Qwen2-VL 则使用 1.6 万个 tokens。吞吐量SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色，且处理速度相比较 Qwen2-VL……更多

2024-11-28 09:47:00推理,模型,参数,模型,吞吐量,吞吐

专家模型不要专家并行！微软开源MoE新路径

...密集模型进行了比较，使用相同的硬件测量了它们的训练吞吐量。尽管MoE总的参数量是密集模型的六倍多，但在实验中达到了超过80%的相对吞吐量，证实了使用GRIN MoE方法的模型具有显著的计算扩展潜力。（PS：密集模型的吞吐...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家

华为AI存储助力中国移动构建超大规模智算集群

...：在吞吐性能方面，万亿级参数大模型需要至少10TB/秒的吞吐量，而传统存储系统难以满足这一要求；在多协议处理方面，数据从归集到处理再到训练，涉及对象存储和文件存储的频繁转换，这对传统存储架构是一个巨大挑战；...……更多

2024-12-19 18:16:00华为,集群,中国,中国移动,存储,规模

CPU,正在被AI时代抛弃？

...系统能够高效处理大量的数据，而CPU的强大计算能力和高吞吐量特性可以很好地满足要求，能够确保推理任务的快速完成。英特尔的测试数据也验证了千帆大模型平台团队的发现，其通过测试证明，单台双路CPU服务器完全可以轻...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

Intel三条线优化阿里云通义千问2模型：720亿参数轻松拿

...i 2，对70亿参数、720亿参数的通义千问2模型的推理和微调吞吐量进行了基准测试，以下为详细性能指标和测试结果：70亿参数通义千问2在单颗Gaudi 2加速器上的推理720亿参数通义千问2在八颗Gaudi 2加速器上的推理通义千问2 FP8在Gaud...……更多

2024-07-18 14:57:00三条,通义,阿里,模型,参数,通义

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...，MixCon 仍能保持较小的 KV 缓存优势（如表 1 所示）。在吞吐量方面，处理长序列时，Conba 层计算效率更高，增加其比例可提高整体吞吐量。基本配置单位是 MixCon 块，由 Conba 或注意力层组合而成，每个层包含注意力模块或 Conba ...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

DeepSeek，大消息

...RDMA的非对称带宽转发场景进行了深度优化，不仅提供高吞吐量，还支持流式多处理器数量控制，从而在训练和推理任务中实现高吞吐量性能。稍早于2月26日，DeepSeek宣布，即日起，北京时间每日00:30至08:30的夜间空闲时段，DeepSeek...……更多

2025-02-27 15:51:00消息,英伟,模型,推理,训练,通信

摆脱Transformer依赖？这家AI初创公司推出国内首个

...果——记忆能力提升3倍、速度提升7倍的同时，实现推理吞吐量的5倍提升。至于为何另辟蹊径，寻求非Transformer的大模型路径，岩芯数智CEO刘凡平指出，以大规模著称的Transformer，在实际应用中的高算力和高成本，让不少中小型...……更多

2024-01-29 06:31:00模型,机制,公司,模型,架构,岩芯

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...领先扩散模型Flux-12B，Sana-0.6B不仅参数小12倍，重要的是吞吐量飙升100倍。以后，低成本的内容创作，Sana才堪称这一领域的王者。下面来看个更复杂的：一艘海盗船被困在宇宙漩涡星云中，通过模拟宇宙海滩旋涡的特效引擎渲染...……更多

2024-10-18 09:49:00英伟,清华,架构,大片,性能,笔记本

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

...1/100，GPT-4的1/360。据介绍，目前MiniCPM-2B在CPU（比GPU计算吞吐量低）上就能跑起来，相较于用GPU才能运行的大模型，能够降低推理成本。与此同时，即便将大小压缩75%，MiniCPM的性能也能做到基本无损耗。在性能上，MiniCPM-2B的中文...……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Soh

...达3400万刀。当时Sohu号称LLM推理性能达到H100的10倍，单价吞吐量更是高达140倍。而就在刚刚，Etced又宣布了炸裂的新消息：已筹到1.2亿美元。就在上周，英伟达的市值达到3.3万亿美元，超过微软成为全球第一。而Etched相信，自己...……更多

2024-06-27 09:25:00小哥,英伟,哈佛,华裔,推理,芯片

英伟达展示blackwell平台，否认推迟上市

...多GPU推理方法是在多个GPU上进行计算，以获得低延迟和高吞吐量，但采用多GPU路线也有其复杂性。多GPU环境中的每个GPU都必须将计算结果发送给每一层的其他GPU，这就需要高带宽的GPU对GPU通信。多GPU推理方法是在多个GPU上进行计...……更多

2024-08-25 06:58:00英伟,平台,英伟,数据中心,桥架,吹风会

月之暗面 Kimi 联合清华大学等开源大模型推理架构 Moo

...以 KVCache 为中心的 PD 分离和以存换算架构，提升了推理吞吐量。近日，为了进一步加速该技术框架的应用与推广，月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等共同发布开源项目...……更多

2024-11-29 09:22:00清华大学,清华,推理,架构,模型,联合

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...究者通过每秒生成的 token 数来评估 Memory3 的解码速度或吞吐量。了解更多内容，请参考原论文。 ……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

大模型步入推理Scaling时代,SambaNova如何挑战

...能力。GPU 有很好的批处理能力（比如从 BS1 到 BS16)，可将吞吐量提高 12 到 15 倍。比如在上图中，当 decoder0 在进行批处理运算时，可以同时从 HBM 读取 decoder1 的参数。 SambaNova 的研究者观察到，SN40L 在 Llama 3.1 70B ……更多

2024-10-21 09:55:00英伟,霸主,推理,模型,地位,时代

DeepSeek第二炸：开源首个用于 MoE 模型训练通信库

...算调度，降低计算资源消耗。3、重性能内核据介绍，高吞吐量内核可适用于训练和推理预填充场景，最大化数据处理能力；4、低延迟内核它针对推理解码场景设计，采用纯RDMA通信和自适应路由技术，减少延迟。5、资源控制与...……更多

2025-02-25 11:33:00模型,训练,通信,推理,通信,场景

英特尔第五代至强可扩展处理器发布：AI推理性能提升42%！

...开启。客户应用实例方面，IBM watsonx.data平台的网络查询吞吐量提高了2.7倍，Palo Alto Networks的基于深度学习模型的威胁检测性能提升了2倍，Gallium Studios游戏工作室Numenta AI平台的推理性能比GPU云实例提高了多达6.5倍。拥有28款……更多

2023-12-16 13:49:00英特,英特尔,推理,处理器,性能,处理

推动前沿大模型技术应用这只浙股去年营收净利双增

...法显著提升了训练和推理速度，并优化了模型精度与推理吞吐量；在智能安全保障上，公司采用RLHF方案对齐安全认知，创新的热修复技术确保了大模型的安全性，提供安全、可靠的用户体验。能“深度思考”的推理模型非常火...……更多

2025-02-26 09:09:00净利,技术应用,模型,应用,技术,模型

阿里云重磅升级全栈AI体系，一文看懂云栖大会技术发布

...，模型训练成本较密集模型Qwen3-32B大降超90%，长文本推理吞吐量提升10倍以上，为未来大模型的训练和推理的效率设立了全新标准。在专项模型方面，千问编程模型Qwen3-Coder重磅升级。新的Qwen3-Coder与Qwen Code、Claude Code系统联合训...……更多

2025-09-24 13:30:00一文,阿里,重磅,体系,大会,升级

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...问的内容，模型只会激活不同的专家子模块进行推理，在吞吐量一定的情况下，可以更快地完成推理、给出回答。这让Grok-1拥有了更快的生成速度和更低的推理成本，简而言之就是更好的使用体验和性价比。根据xAI公布的数据，...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

GPT-4下岗了，上海高校和企业用DeepSeek开发大模型

...训练，生成速度比上一个版本V2.5模型提升3倍，达到每秒吞吐量60token。”陈运文介绍，“V3对GPU资源的使用效率极高，因为很多单位没有庞大的GPU集群，DeepSeek这种低资源、高效果的特性有利于今后大规模推广应用。”DeepSeek-V3为...……更多

2025-01-29 21:29:00上海,下岗,模型,智能,开发,企业

晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1

...键值缓存留下大约 28GB 的空间。Feldman 声称，除了极高的吞吐量外，WSE-3 还可以扩展到更高的批量大小。尽管它究竟可以扩展到多大程度并保持每个用户Token的生成率，这家初创公司不愿透露。“我们目前的批次大小经常变化。...……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

支持1024帧、准确率近100％，英伟达「LongVILA」

...遵循任务上的表现。训练与推理系统该研究对训练系统的吞吐量、推理系统的延迟以及支持的最大序列长度进行了定量评估。表 2 显示了吞吐量结果。与 ZIGZAG-RINGATTN 相比，本文系统实现了 2.1 倍至 5.7 倍的加速，性能与 DeepSpeed-U...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

非Transformer架构站起来了!首个纯无注意力大模型,

...处理大小为 1 ，硬件采用 H100 GPU 的设置中测量模型生成吞吐量。结果如下图所示，Falcon Mamba 以恒定的吞吐量生成所有 token，并且 CUDA 峰值内存没有任何增加。对于 Transformer 模型，峰值内存会增加，生成速度会随着生成的 token ...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

面壁智能的端侧大模型面壁MiniCPM正式亮相

...对此面壁智能也在发布会上进行了展示，不同终端设备的吞吐量各有不同，也正是壁MiniCPM的出现，让用户那怕是一部手机，一个消费级显卡也能在端侧流畅跑通大模型。为了更真实的展示面壁MiniCPM在端侧的处理能力，发布现场...……更多

2024-02-01 21:36:00模型,智能,模型,智能,用户,数据

算力直降97%，GPT-3存储只用20MB？！这篇新论文火了

...（FP16或BF16）的Transformer LLM相匹配，同时在延迟、存储、吞吐量和算力消耗方面成本更低。然而，上述变体是在推理时使用低精度，而在训练时仍需高精度权重。因此，noise_step的一个核心区别是：无需反向传播。允许模型直接在...……更多

2024-12-30 09:11:00文火,新论,存储,训练,小哥,模型

Mamba再次挑战霸主Transformer！首个通用Mam

...k库，对Falcon Mamba和流行的Transformer模型在内存使用和生成吞吐量方面进行了比较。为了公平比较，将所有Transformer模型的词汇大小调整为与Falcon Mamba一致，因为这对模型的内存需求有很大影响。在查看结果之前，先讨论序列中提...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

PyTorch官宣：告别CUDA，GPU推理迎来Triton

...据传输速度更快。与F32相比，英伟达GPU提供的FP16将算术吞吐量提高了8倍，大幅加快了数学受限层的训练速度。此外，PyTorch团队还着重强调，计算全部是依赖OpenAI的Triton语言执行的。Triton是一种用于编写高效自定义深度学习基元...……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

自定义Llama 3.1模型的利器来了！NVIDIA打造生成

...些模型。NIM微服务有助于将Llama 3.1模型部署到生产中，其吞吐量最多可比不使用NIM运行推理时高出2.5倍。从ai.nvidia.com即可了解适用于Llama 3.1模型的NVIDIA NIM推理微服务，以加快将Llama 3.1模型部署到生产级AI的速度。将Llama 3.1 ……更多

2024-07-25 09:30:00代工厂,代工,利器,生成,模型,服务