• 我的订阅
  • 科技

Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理

类别:科技 发布时间:2024-11-28 09:47:00 来源:IT之家

IT之家 11 月 27 日消息,Hugging Face 平台昨日(11 月 26 日)发布博文,宣布推出 SmolVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。

官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM 数据集、训练配方和工具均在 Apache 2.0 许可证下发布。

SmolVLM AI 模型共有 SmolVLM-Base(用于下游微调)、SmolVLM-Synthetic(基于合成数据微调)和 SmolVLM-Instruct(指令微调版本,可以直接用于交互式应用)三个版本。

Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理

架构

SmolVLM 最大的特点在于巧妙的架构设计,借鉴了 Idefics3,使用了 SmolLM2 1.7B 作为语言主干,通过像素混洗策略将视觉信息的压缩率提高到 9 倍。

Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理

训练数据集包括 Cauldron 和 Docmatix,并对 SmolLM2 进行了上下文扩展,使其能够处理更长的文本序列和多张图像。该模型通过优化图像编码和推理过程,有效降低了内存占用,解决了以往大型模型在普通设备上运行缓慢甚至崩溃的问题。

内存

SmolVLM 将 384x384 像素的图像块编码为 81 个 tokens,因此在相同测试图片下,SmolVLM 仅使用 1200 个 tokens,而 Qwen2-VL 则使用 1.6 万个 tokens。

Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理

吞吐量

SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色,且处理速度相比较 Qwen2-VL,预填充(prefill)吞吐量快 3.3 到 4.5 倍,生成吞吐量快 7.5 到 16 倍。

Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理

IT之家附上参考地址

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-28 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
...有足够的内存带宽来容纳大型语言模型来实现一定水平的吞吐量。即使它们有足够的带宽,边缘硬件计算资源的利用率也会很糟糕。在数据中心、云中,利用率就是一切。 Nvidia 因其卓越
2023-07-12 20:14:00
专家模型不要专家并行!微软开源MoE新路径
...密集模型进行了比较,使用相同的硬件测量了它们的训练吞吐量。 尽管MoE总的参数量是密集模型的六倍多,但在实验中达到了超过80%的相对吞吐量,证实了使用GRIN MoE方法的
2024-11-12 09:57:00
华为AI存储助力中国移动构建超大规模智算集群
...:在吞吐性能方面,万亿级参数大模型需要至少10TB/秒的吞吐量,而传统存储系统难以满足这一要求;在多协议处理方面,数据从归集到处理再到训练,涉及对象存储和文件存储的频繁转换,
2024-12-19 18:16:00
CPU,正在被AI时代抛弃?
...系统能够高效处理大量的数据,而CPU的强大计算能力和高吞吐量特性可以很好地满足要求,能够确保推理任务的快速完成。英特尔的测试数据也验证了千帆大模型平台团队的发现,其通过测试证
2024-07-11 16:45:00
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
...i 2,对70亿参数、720亿参数的通义千问2模型的推理和微调吞吐量进行了基准测试,以下为详细性能指标和测试结果:70亿参数通义千问2在单颗Gaudi 2加速器上的推理720
2024-07-18 14:57:00
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。在吞吐量方面,处理长序列时,Conba 层计算效率更高
2024-10-16 13:34:00
DeepSeek,大消息
...RDMA的非对称带宽转发场景进行了深度优化,不仅提供高吞吐量,还支持流式多处理器数量控制,从而在训练和推理任务中实现高吞吐量性能
2025-02-27 15:51:00
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...果——记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。 至于为何另辟蹊径,寻求非Transformer的大模型路径
2024-01-29 06:31:00
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...领先扩散模型Flux-12B,Sana-0.6B不仅参数小12倍,重要的是吞吐量飙升100倍。以后,低成本的内容创作
2024-10-18 09:49:00
更多关于科技的资讯: