• 我的订阅
  • 科技

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

类别:科技 发布时间:2024-10-22 09:54:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

本文作者来自字节跳动,南洋理工大学 S-Lab 和北京邮电大学。其中第一作者为南洋理工大学 S-Lab 的博士生 Yuanhan Zhang (https://zhangyuanhan-ai.github.io/),主要研究领域为将基础模型适配于开放世界。本文的指导老师为 Ziwei Liu 教授 ((https://liuziwei7.github.io/) 和 Chunyuan Li 博士 (https://chunyuan.li/), 其中 Chunyuan Li 领导了这个项目。本文其他作者包括北京邮电大学 Jinming Wu,南洋理工大学 S-Lab 的博士生 Bo Li, 字节跳动研究员 Wei Li, Zejun Ma.

视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。

该数据集包含详细的视频的描述、开放式问答(QA)、和多项选择题。通过在该数据集和现有的视觉指令微调数据上训练模型,我们推出了新的视频 LMM——LLaVA-Video。实验表明,LLaVA-Video 在多个视频基准上表现出色,展示了该数据集的有效性。

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

论文标题:VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA 论文链接:https://arxiv.org/pdf/2410.02713 项目主页:https://llava-vl.github.io/blog/2024-09-30-llava-video/

先来看一组交互性演示,了解 LLaVA-Video 在真实世界中与人交互:

1.LLaVA-Video 教我下载 "TikTok":

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650939676&idx=3&sn=b46f7433c2ab7976a4fbea3fcf20745a&chksm=84e7e562b3906c74a3ac7337f9ef2c109bc95673095312f05e3b243db484a36bec808e952f90&token=1077590380&lang=zh_CN#rd

2.LLaVA-Video 描述我的客厅,并指导我找健康饮料:

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650939676&idx=3&sn=b46f7433c2ab7976a4fbea3fcf20745a&chksm=84e7e562b3906c74a3ac7337f9ef2c109bc95673095312f05e3b243db484a36bec808e952f90&token=1077590380&lang=zh_CN#rd

视频指令跟随数据合成

一个高质量的视频指令跟随数据集对于开发有效的视频语言模型至关重要。我们确定了构建此类数据集的关键因素:确保视频内容和语言注释的丰富性和多样性。我们对现有的视频基准进行了全面调查,涵盖了各种公共视频描述和问答数据集,然后确定了十个独特的视频来源,这些来源为超过 40 个视频语言基准提供了数据。从每个来源中,我们选择具有显著时间动态的视频。为了保持注释的多样性,我们建立了一条能够生成任何长度视频的详细描述的流水线。此外,我们定义了 16 种问题类型,指导 GPT-4o 生成问答对,以训练视频语言模型的感知和推理能力。

视频来源

我们注意到,尽管不同的视频语言数据集侧重于各种视频理解任务,但大多数都来源于十个主要视频来源,这些来源提供了广泛的来自不同网站、拍摄视角和题材的视频。下图展示了这十个我们选择的视频数据集与其他现有视频语言数据集之间的关系。进一步,我们从这些来源中选择了动态视频,详细的选择逻辑在论文中描述。

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

我们使用的 10 个视频来源与其他现有视频语言数据集的关系。

自动生成视频详细描述

对于选定的视频,我们使用 GPT-4o 系统地描述其内容。我们从每秒一帧的频率开始采样视频。然而,由于 GPT-4o 的输入大小限制,我们无法一次性使用视频中所有采样的帧。因此,我们按顺序描述视频,如下图所示。我们在三个不同级别上创建描述,详细如下,简单来说,第一个层级(leve-1)指的是针对 10s 区间的视频描述,第二个层级(level-2)指的是针对 30s 区间的视频描述,第三个层级(level-3)指的是针对整个视频的描述。

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

视频描述的生成流程:通过递归方法对三个不同的视频描述层级(leve-1,level-2,level-3)进行描述。`t` 是时间区间在其自身层级的索引,`T` 是最后一个时间区间的索引。(a) 我们根据 level-1 的 `t` 内收集的帧、level-1 的 `t-1` 的描述,以及最近的一次 level-2 描述(如果有的话),来生成 level-1 时间区间 `t` 的视频描述。(b) 我们使用 level-2 的 `t-1` 的描述,以及最近的三个 level-1 描述,生成 level-2 的时间区间 `t` 的描述, (c) 我们基于最近一次 level-2 的描述和最近的一次 level-1 的描述,生成 level-3 的 `T` 的描述。

自动生成视频问答

除了详细的视频描述,我们的数据集中还包含设计用于复杂交互的各种问答对。这种设置提高了视频理解模型处理现实问题的能力。我们参考公共视频问答基准,将这些问题组织为 16 种特定类别,如图 3 所示。给定详细的视频描述,我们使用 GPT-4o 为每种问题类型最多生成一个问答对。有关问题类型和生成过程的更多细节,请参阅论文。

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

数据创建中用于生成视频问答对的问题类型。对于每种类型,我们提供其名称和示例问题。

数据集统计

我们从收集到的数据源中精心挑选,以形成一个平衡且全面的集合,最终得到总共 178K 个视频和 1.3M 个指令跟随样本。这包括 178K 个视频描述、960K 个开放式问答和 196K 个多项选择问答。

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

不同数据集和问题类型(描述、开放式 Q&A、多项选择 Q&A)中的数据分布。

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

一个用于说明 LLaVA-Video-178K 中视频指令跟随数据的示例。

数据集比较

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

LLaVA-Video-178K 和其他视频语言数据集的比较。平均 FPS 代表用于提示 GPT-4o/GPT-4V 进行注释的每秒帧数。★:VIDAL, WebVid, ActivityNet。◼:Panda-70M, Pexels, Pixabay, Mixkit, BDD100K, Ego4d。✸:HD-VILA-100M, Kinetics-700M, Ego4D, VidOR, InternVid, YouCook2, ActivityNet, Sth-sthv2, VIDAL, Charades。

我们提供了和其他高质量指令跟随视频语言数据集的比较,LLaVA-Video-178K 展现了如下优势

1. 广泛的动态视频集合:在视频来源方面,虽然 LLaVA-Hound 包含最多的视频,但其 44% 的视频数据来自 [WebVid](https://ak.picdn.net/shutterstock/videos/21179416/preview/stock-footage-aerial-shot-winter-forest.mp4),其中大多数视频是静态的。ShareGPT4Video 的 30% 视频来自 [Pexels](https://www.pexels.com/video/a-bird-is-standing-on-the-beach-27916646/)、[Pixabay](https://pixabay.com/videos/plane-modelling-miniature-lockheed-134519/) 和 [Mixkit](https://mixkit.co/free-stock-video/a-young-woman-clad-in-snugly-black-sportswear-doing-lunges-52112/)。这些视频美学效果很好,但是同时存在视频本身较为静态的弊病。此外,其大部分视频来自 Panda-70M,这些是从较长视频中剪辑的短片,其情节较为简单。相比之下,我们精心选择了动态,情节复杂的视频,这对于开发强大的视频理解模型至关重要。

2. 高帧率:关于采样的帧的频率,LLaVA-Video-178K 考虑了 1 FPS,而其他数据集考虑的 FPS 较低。LLaVA-Hound 从任意长度的视频中均匀采样 10 帧。平均 FPS 为 0.008,这样会错过一些细节。ShareGPT4Video 使用 CLIP 基于帧的独特性选择关键帧。此方法可能也会错过视频中的细微变化,因为 CLIP 的特征无法很好地捕捉细粒度动态。我们的方法以 FPS=1 进行采样,不使用关键帧选择算法,确保详细的时间信息能够在注释中得到高覆盖率的表达。

3. 多样化的任务:所提出的数据集考虑了三种常见的任务类型,包括描述、自由形式和封闭形式问答,而现有的数据集仅考虑了其中的一部分。同时,我们数据集的样本质量和数量更高。

该数据集聚焦动态视频, 高帧率, 和多样化的任务, 让视频多模态大模型洞察每一瞬精彩。

视频表示

基于经典的 SlowFast 视频表示方法,我们开发了 LLaVA-Video_SlowFast,以在视频表示中,平衡帧数和视觉 token 的数量,同时考虑 LLM 的上下文窗口限制和 GPU 内存的限制。

具体来说,我们根据击中率 s 将帧分为两组,每隔 s 帧均匀选出形成 * 慢 * 帧组,剩下的帧被认为是 * 快 * 帧组。需要注意的是,当 s=1 时,只有一组帧,这种情况下 SlowFast 表示就简化为原始的简单表示。对于每组帧,我们使用 PyTorch 函数 avg_pool2d}() 应用不同的池化率。我们对慢帧使用 pXp 池化,对快帧使用 2pX2p 池化。

基准性能

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

LLaVA-Video 的表现。对于 VideoDC 和 VideoChatGPT 的,我们使用 5 分制度打分,其他评测集结果以准确率打分。所有结果均为 0-shot 准确率。* 表示该评测集的训练集已在我们的训练集中使用。

我们在视频和图像数据的联合数据集上微调了 LLaVA-OneVision (SI)。具体而言,我们添加了来自 LLaVA-Video-178K 数据集和四个公共数据集的视频数据:ActivityNet-QA、NExT-QA、PerceptionTest 和 LLaVA-Hound-255K,此外,我们还使用了来自 LLaVA-OneVision 模型的 110 万个图像语言对。如表格所示,LLaVA-Video 展现了出色的性能。

结论

本研究介绍了高质量的专为视频语言指令任务设计的 LLaVA-Video-178K 数据集。它的特点是在较长的未修剪视频中进行密集的帧采样,覆盖了包括字幕制作、开放式和多项选择问答等多种任务。通过将 LLaVA-Video-178K 数据集与现有的视觉指令数据结合起来,我们开发了一系列新的模型,LLaVA-Video。这些模型改进了视频表现,更有效地利用了 GPU 资源,使我们能够在训练过程中处理更多帧。实验结果证明了所提出的合成数据集的有效性,LLaVA-Video 模型在各种视频基准测试中都表现出色。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-22 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR
新智元报道编辑:LRST【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据
2024-06-21 09:21:00
...国AI产业规划的路线图,就是通过大量堆砌算力,建立多模态通用大模型。同时,其压制中国AI发展的思路,也是通过限制芯片这一算力的核心而来。 但经过两年发展,美国限制措施并没有取
2024-12-30 06:40:00
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和
2024-03-14 15:12:00
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design
2024-11-26 09:46:00
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?3月24日,在2024全球开发者先锋大会的大模型前沿论坛上,
2024-03-25 10:53:00
国泰君安首席信息官俞枫:AI大模型驱动证券行业步入“智能认知”时代
...模型底座,“1” 是基于通用大模型,国泰君安打造了多模态垂类大模型—— 君弘灵犀大模型,并辅以 N 个场景模型协同,实现开源、闭源融合以及模型组合;二是全栈自主构建自有算力池
2025-03-11 16:14:00
...行业难题。海尔消费金融(简称“海尔消金”)创新引入多模态大模型,并使用大小模型协同机制,充分发挥大小模型的专业能力,构建了一套完整的活体照欺诈防控体系,能够更加精准地识别和防
2025-07-16 20:31:00
Gemini引领多模态AI热潮,产业发展有望加速
12月11日,多模态AI概念股继续活跃,苏州科达(603660.SH)三连板。截至当日中午收盘,因赛集团(300781
2023-12-11 15:01:00
拓斯达新一代X5机器人控制平台如何突破具身智能的“小脑”瓶颈?
...策,并向控制模块发出指令。该环节以中央计算单元与多模态决策算法为核心。【小脑】负责运动控制、感知外界状态,在大脑的策略下实现机器人动作的执行和反馈。控制:将决策指令转化为实际
2024-12-03 09:50:00
更多关于科技的资讯:
十堰广电讯(全媒体记者 耿吉国)据2025新能源汽车零部件交易会组委会最新消息,9月21日10:30,本届交易会将在十堰国际会展中心的交易会活动现场
2025-09-21 08:54:00
9月20日,2025太原人形机器人欢乐跑比赛在晋阳湖公园举行。这是我市第一次举办人形机器人“跑步”比赛。本次比赛,共有来自省城高校
2025-09-21 06:42:00
混成全网公敌的“流水线式造假”,终于被整顿
一家三口站在某所知名小学校门前,松弛地拍了一张合照。照片发到小红书上,下方评论区都在问询:“这么优秀的娃,究竟该怎么培养
2025-09-20 22:18:00
家庭观影进入IMAX时代!海信发布全球最大150英寸激光电视
鲁网9月19日讯9月19日,以“无界”为主题的“2025激光显示技术与产业发展大会”隆重举行。作为全球激光显示领域的领军企业
2025-09-20 08:56:00
我国脑机接口技术取得重大突破 厦门大学研究人员参与
放大镜视野下的“神经蠕虫”电极。(受访者 供图)厦门网讯(厦门日报 佘峥 通讯员 戴佩琪)我国脑机接口技术有重大突破——近日
2025-09-20 09:18:00
厦门“屏实力”再添新动能 天马发布高端OLED技术品牌“天工屏”
图为天马“天工屏”发布会现场。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹 通讯员 雷飏 李舜)随着人们日常使用手机时长持续攀升
2025-09-20 09:18:00
“赢在南京”海外人才创业大赛总决赛落幕逐鹿未来机“慧” 四海英才“论剑”南报网讯(记者余梦娇)9月19日,2025年“赢在南京”海外人才创业大赛总决赛在紫金山科技城圆满落幕
2025-09-20 09:54:00
过节送福礼,就送波尼亚!老字号中秋礼盒,青岛人都认这口
鲁网9月20日讯中秋将至,岛城的节日氛围日渐浓厚,走亲访友、阖家团聚的时刻,一份饱含心意的礼品总能传递温暖。作为扎根青岛的老字号肉食品牌
2025-09-20 10:08:00
机器人“总动员”!2025世界制造业大会上演智造奇观
大皖新闻讯 机械臂在空中划出优美弧线,人形机器人灵活抓取糖果,机器狗稳步行走在模拟街区内……2025世界制造业大会的智能机器人展区仿佛穿越至未来世界
2025-09-20 13:25:00
茶话弄九周年,这款经典单品即将迎来“家族式”升级
9月的西安,金桂飘香。2016年创立于西安的国风新中式茶饮品牌茶话弄,也将于近期启动以“桂花”为主题元素的品牌九周年庆典系列活动
2025-09-20 15:33:00
了不起的河南制造丨汉威科技:唤醒机器人“感知”世界的能力
大河网讯 2025世界制造业大会9月20日至23日在安徽省合肥市举办,大会以“智造世界·创造美好”为主题,举办开幕式暨主旨演讲
2025-09-20 16:14:00
了不起的河南制造丨2025世界制造业大会举行,河南“工业机器人”现场秀签名
大河网讯 9月20日,2025世界制造业大会开幕式暨主旨演讲在合肥市举行。河南省作为主宾省参会,30家制造业企业“重装上阵”
2025-09-20 16:45:00
2026届校园招聘大战启幕 科技企业派机器狗进高校抢人
近期,2026届校园招聘在全国多所高校陆续启动,一场围绕科技人才的“抢人大战”正式拉开帷幕。与往年相比,今年众多科技企业积极创新招聘形式
2025-09-20 17:55:00
2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度盛大启幕
鲁网9月20日讯(记者 潘亚妮 实习记者 刘悦 通讯员 袁嘉利 位一凡)9月20日,2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度市美妆在线新经济产业园盛大启幕
2025-09-20 17:55:00
从“炕头经济”到“美丽经济” ,平度睫毛产业数字化蝶变升级
齐鲁晚报•齐鲁壹点 刘震 通讯员 袁嘉利 位一凡9月20日,2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度市开幕
2025-09-20 18:05:00