• 我的订阅
  • 科技

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

类别:科技 发布时间:2024-08-22 09:51:00 来源:机器之心Pro

现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。

现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型处理的信息更多,例如长文档、长视频,这种能力同样为更多现实世界的应用程序提供了所需的功能。

然而,目前面临的问题是一些工作已经启用了长上下文视觉语言模型(VLM),但通常是采用简化的方法,而不是提供一个全面的解决方案。

全栈设计对于长上下文视觉语言模型至关重要。训练大型模型通常是一项复杂而系统的工作,需要数据工程和系统软件协同设计。与纯文本 LLM 不同,VLM(例如 LLaVA)通常需要独特的模型架构和灵活的分布式训练策略。

此外,长上下文建模不仅需要长上下文数据,还需要能够支持内存密集型长上下文训练的基础设施。因此,对于长上下文 VLM 来说,精心规划的全栈设计(涵盖系统、数据和 pipeline)是必不可少的。

本文,来自英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校的研究者引入了 LongVILA,这是一种用于训练和部署长上下文视觉语言模型的全栈解决方案,包括系统设计、模型训练策略和数据集构建。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

论文地址:https://arxiv.org/pdf/2408.10188 代码地址:https://github.com/NVlabs/VILA/blob/main/LongVILA.md 论文标题:LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOS

对于训练基础设施,该研究建立了一个高效且用户友好的框架,即多模态序列并行 (MM-SP),它支持训练记忆 - 密集型长上下文 VLM。

对于训练 pipeline,研究者实施了一个五阶段训练流程,如图 1 所示:即 (1) 多模态对齐,(2) 大规模预训练,(3) 短监督微调,(4) LLM 的上下文扩展,以及 (5) 长监督微调。

对于推理,MM-SP 解决了 KV 缓存内存使用率的挑战, 这在处理非常长的序列时会成为瓶颈。

通过使用 LongVILA 增加视频帧数,实验结果表明该研究在 VideoMME 和长视频字幕任务上的性能持续提高(图 2)。在 1024 帧上训练的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallelism)相比实现了 2.1 倍至 5.7 倍的加速,与 Megatron 上下文并行 + 张量并行相比实现了 1.1 倍至 1.4 倍的加速。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

下图为 LongVILA 技术在处理长视频字幕时的示例:在字幕开头,8 帧的基线模型仅描述了静态图像和两辆车。相比之下,256 帧的 LongVILA 描述了雪地上的汽车,包括车辆的前、后和侧面视图。在细节上,256 帧的 LongVILA 还描述了点火按钮、变速杆和仪表盘的特写,这些在 8 帧的基线模型中是缺失的。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

多模态序列并行

训练长上下文视觉语言模型(VLM)会产生大量内存需求。例如下图 1 中 Stage 5 的长视频训练,单个序列包含了产生 1024 个视频帧的 200K tokens,这超出了单个 GPU 的内存容量。

研究者开发了一个基于序列并行的定制系统。序列并行是当前基础模型系统中常用的一种技术,用于优化仅文本的 LLM 训练。不过,研究者发现现有系统既不高效,扩展性也不足以处理长上下文 VLM 工作负载。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

在确定现有系统的局限性之后,研究者得出结论,一个理想的多模态序列并行方法应该通过解决模态和网络异构性来优先实现效率和可扩展性,并且扩展性不应受到注意力头数量的限制。

MM-SP 工作流。为了应对模态异构性的挑战,研究者提出了一种两阶段式分片策略,以优化图像编码和语言建模阶段的计算工作负载。

具体如下图 4 所示,第一阶段首先在序列并行进程组内的设备之间均匀地分布图像(比如视频帧),从而在图像编码阶段实现负载平衡。第二阶段,研究者聚合全局视觉和文本输入以进行 token 级分片。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

2D 注意力并行。为了解决网络异构性并实现可扩展性,研究者结合环形(Ring)序列并行和 Ulysses 序列并行的优势。

具体来讲,他们将跨序列维或注意力头维的并行视为「1D SP」。该方法通过跨注意力头和序列维的并行计算来实现扩展,将 1D SP 转换为由独立的 Ring(P2P)和 Ulysses(A2A)进程组组成的 2D 网格。

以下图 3 左所示,为了实现跨 2 个节点的 8-degree 序列并行,研究者使用 2D-SP 构建了一个 4×2 通信网格。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

此外,在下图 5 中,为了进一步解释 ZIGZAG-RINGATTN 如何平衡计算以及 2D-Attention 机制如何运作,研究者解释了使用不同方法的注意力计算计划。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

与 HuggingFace 的原生 pipeline 并行策略相比,本文的推理模式更加高效,原因在于所有设备同时参与计算,从而与机器数量呈正比地加速进程,具体如下图 6 所示。同时,该推理模式是可扩展的,内存均匀地分布给各个设备,以使用更多机器来支持更长的序列。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

LongVILA 训练流程

上文提到,LongVILA 的训练流程分为 5 个阶段完成。各个阶段的主要任务分别如下:

在 Stage 1,只有多模态映射器可以训练,其他映射器被冻结。

在 Stage 2,研究者冻结了视觉编码器,并训练了 LLM 和多模态映射器。

在 Stage 3,研究者针对短数据指令遵循任务对模型全面进行微调,比如使用图像和短视频数据集。

在 Stage 4,研究者以持续预训练的方式,使用仅文本的数据集来扩展 LLM 的上下文长度。

在 Stage 5,研究者通过长视频监督微调来增强指令遵循能力。值得注意的是,所有参数在该阶段是可训练的。

实验结果

研究者从系统和建模两个方面对本文全栈解决方案进行评估。他们首先展示了训练和推理结果,从而说明了可支持长上下文训练和推理的系统实现了效率和可扩展性。接着评估了长上下文模型在字幕和指令遵循任务上的表现。

训练与推理系统

该研究对训练系统的吞吐量、推理系统的延迟以及支持的最大序列长度进行了定量评估。

表 2 显示了吞吐量结果。与 ZIGZAG-RINGATTN 相比,本文系统实现了 2.1 倍至 5.7 倍的加速,性能与 DeepSpeed-Ulysses 相当。与 Megatron-LM CP 中更优化的环形序列并行实现相比,实现了 3.1 倍至 4.3 倍的加速。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

该研究通过逐步将序列长度从 1k 增加到 10k 来评估固定数量 GPU 支持的最大序列长度,直到发生内存不足错误。结果总结在图 9 中。

当扩展到 256 个 GPU 时,本文方法可以支持大约 8 倍的上下文长度。此外,所提系统实现了与 ZIGZAG-RINGATTN 类似的上下文长度扩展,在 256 个 GPU 上支持超过 200 万的上下文长度。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

表 3 比较了支持的最大序列长度,该研究提出的方法支持的序列比 HuggingFace Pipeline 支持的序列长 2.9 倍。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

图 11 展示了长视频大海捞针实验的结果。相比之下,LongVILA 模型(右)在一系列帧数和深度上都表现出了增强的性能。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

表 5 列出了各种模型在 Video MME 基准上的表现,比较了它们在短视频、中视频和长视频长度上的有效性以及整体性能。LongVILA-8B 采用 256 帧,总分为 50.5。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

研究者还在表 6 对第 3 阶段和第 4 阶段的影响进行了消融研究。

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

表 7 显示了在不同帧数(8、128 和 256)上训练和评估的 LongVILA 模型的性能指标。随着帧数的增加,模型的性能显著提高。具体来说,平均分数从 2.00 上升到 3.26, 突显了模型在更多帧数下生成准确丰富字幕的能力。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-22 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...等,这样一来在各种具体下游任务下,实现更好的性能和准确率。还有像DNA大模型序列长度跃升至128K,可以更好的捕获远端调控信息,实现了超长序列解码生命的可能性。这有点类似于通
2024-11-07 09:50:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。反观现有的多
2024-09-24 13:36:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...通过NSA新架构,和Transformer原先传统的注意力机制相比,准确率相同或更高,处理64k标记序列时速度可提高至11
2025-02-19 18:43:00
...款 2 亿日元,并计划在 2024 财年将拨款提升至 3 亿日元。准确率可达 70%,科学家利用 AI 解读狗的叫声
2024-06-11 09:00:00
...数学教育)全部 20 个科目及大多数文科科目中获得较高准确率,在涉及“抽象思维”的科目中,还有一定进步空间。OpenAI向所有用户开放ChatGPT“自定义指令”功能8月11日消息
2023-08-15 01:10:00
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...d又宣布了炸裂的新消息:已筹到1.2亿美元。 就在上周,英伟达的市值达到3.3万亿美元,超过微软成为全球第一。而Etched相信,自己的35人团队能够击败英伟达。他们的豪放
2024-06-27 09:25:00
微软、英伟达纷纷押注小模型,大模型不香了?
...例如,在多项选择题中,Claude 3 Opus、GPT- 4 和Gemini Ultra的准确率均超过83%,而在推理任务中
2024-08-26 14:17:00
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...绩直接惨不忍睹,表现最好的Command R(simple)只有22.47%的准确率。——要知道,这考试瞎蒙也能得25分(四选一)
2024-07-23 17:12:00
英伟达帝国的一道裂缝
...一个能够识别猫的深度学习网络“谷歌猫”,74.8%的识别准确率,比知名识别图像大赛ImageNet前一年获胜算法的74%还要高出0
2023-05-18 11:06:00
更多关于科技的资讯:
“内容重构论”引短剧行业共鸣
当“反转”“爽点”不再能轻易留住观众,微短剧行业正迎来一场深层重构。到2024年中,中国微短剧用户规模已接近7亿,市场体量超过500亿元
2025-10-29 14:01:00
鲸鸿动能亮相中国国际广告节&亚洲广告大会,全场景AI驱动增长
10月24日,第32届中国国际广告节&第34届亚洲广告大会在北京举办,鲸鸿动能受邀出席,并发表主题演讲《从孤岛到共生
2025-10-29 11:21:00
如何选择适合你的视频画质修复工具
在数字时代,视频已成为我们记录生活、创作内容和保存记忆的重要载体。然而由于拍摄设备限制、保存条件或传输压缩,我们常常面临视频模糊
2025-10-29 11:22:00
精工匠心极致服务!2025年小蓝翼杯全品类服务技术比武大赛圆满落幕
10月23日,2025年“小蓝翼”杯全品类服务技术比武大赛在TCL空调武汉智能工厂举行。其中,空调品类经过30个战区初赛
2025-10-29 11:30:00
‌2025年10月27日‌——上海联舌工坊科技有限公司今日正式于杨浦区完成注册,此举被视为其深化资本市场布局的关键一步
2025-10-29 12:37:00
三星电视荣登天猫艺术电视榜单 双十一钜惠助力消费者轻松解锁艺术家居生活
在消费焕新浪潮席卷家居领域、美学需求成为当代家庭核心诉求的当下,三星凭借对前沿科技与生活美学的深度解构与融合,始终站在全球艺术电视品类发展的潮头
2025-10-29 12:40:00
河北新闻网讯(吴建春)近日,由河北天翼科贸发展有限公司(简称“河北天翼”)为一家农业融资担保公司量身打造的在线收付款业财一体化项目
2025-10-29 13:31:00
宝宝巴士回应APP出现不良广告:严处审核负责人 研发广告强制拦截功能
华商网讯 10月29日,针对“宝宝巴士App出现不良广告”一事,宝宝巴士官方微信公众号发布致歉及整改声明。根据声明,对于近期用户关注的宝宝巴士App产品跳转不良广告一事
2025-10-29 13:40:00
米兰冬奥倒计时100天 国际奥委会携手阿里巴巴首次推出五环系列首饰
2026年米兰·科尔蒂纳冬奥会开幕倒计时100天之际,奥林匹克天猫官方旗舰店独家首发米兰冬奥会系列商品。同时,国际奥委会首次推出奥林匹克五环系列首饰
2025-10-29 13:47:00
王玉宝:于商业迷途中寻一盏不灭的心灯
鲁网10月29日讯踏入儒商研究会的大门,已是一载有余。今日静坐回望,恍然惊觉,这段旅程并非寻常的“加入一个组织”,倒更像是一场在商业迷途中的精神返乡
2025-10-29 13:51:00
2025上海国际压缩机展开幕 ,美的楼宇科技赋能工业制造绿色升级
10月28日-31日,2025上海国际压缩机及设备展览会(以下简称“上海国际压缩机展”)在上海新国际博览中心举办。作为核心参展商
2025-10-29 12:41:00
深圳首宗!医疗健康数据产品场内交易,十年临床数据为手术机器人研发注入“燃料”
经过严格匿名化处理和多轮合规审查,在严格遵守隐私保护的红线下,医疗数据也可以“活”起来,成为驱动AI技术发展的“燃料”
2025-10-29 12:38:00
为进一步推动国产雪茄高质量发展,持续提升阜阳市场“懂雪茄、会养护、善营销”的零售客户雪茄经营能力,提升服务质量,重振经营信心
2025-10-29 12:39:00
富士胶片X-SPACE迎来七周年朋友月 胶片模拟色彩配方书籍特别发布
2025年10月,富士胶片(中国)投资有限公司旗下X-SPACE富士胶片影像空间(以下简称"X-SPACE")迎来成立七周年
2025-10-29 10:59:00
河北纳科生物科技有限公司专利获雄安高价值专利大赛银奖
河北新闻网讯(钟蕾)近日,推进京津冀知识产权高质量发展暨2025・雄安高价值专利大赛颁奖活动在雄安新区举行。石家庄高新区优秀创新企业河北纳科生物科技有限公司凭借其核心专利“重组人胶原蛋白的制备和产业化应用”
2025-10-29 11:11:00