• 我的订阅
  • 科技

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

类别:科技 发布时间:2024-11-11 13:31:00 来源:量子位

空间智能版ImageNet来了,来自斯坦福李飞飞吴佳俊团队!

HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。

通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

2009年,李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet,它的出现极大推动计算机视觉算法的发展——懂CV的都是知道这里面的门道有多深。

现在,随着多模态迅猛发展,团队认为“现有的视频基准测试,大多集中在特定领域或短视频上”,并且“这些数据集的平均视频长度较短,限制了对长视频理解能力的全面评估”。

于是,空间智能版ImageNet应运而生。

HourVideo包含500个来自Ego4D数据集的第一人称视角视频,时长在20到120分钟之间,涉及77种日常活动。

评测结果表示,人类专家水平显著优于目前长上下文多模态模型中最厉害的Gemini Pro 1.5(85.0%对37.3%)。

在多模态能力上,大模型们还任重而道远。

HourVideo如何炼成?

之所以提出HourVideo,是因为研究人员发现目前长视频理解越来越重要,而现有评估benchmark存在不足。

多模态越来越卷,人们期待AI被赋予autonomous agents的类似能力;而从人类角度来看,由于人类具备处理长时间视觉处理的能力,因此能在现实视觉中感知、计划和行动。

因此,长视频理解对实现这一目标至关重要。

而当前的多模态评估benchmark,主要还是集中在评测单张图像或短视频片段(几秒到三分钟),对长视频理解的探索还有待开发。

不可否认的是,AI评估长视频理解面临诸多挑战,譬如要设计任务、避免通过先验知识或简短片断回答等。

因此,团队提出HourVideo。

这是一个为长视频理解而设计的基准数据集。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

为了设计出需要长期理解的任务,团队首先提出了一个新的任务对应套件,包含总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、对象检索)任务,共18个子任务。

其中,总结任务要求模型对视频中的关键事件、主要交互等进行概括性描述,例如总结出脖子上挂了个相机的人在超市中有什么关键交互行为。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

感知任务由两部分构成,

一个是回忆任务,包括事实回忆(比如脖子上挂了个相机的人,在超市拿起的乳制品)和序列回忆(比如那个人在超市称完西红柿过后做了什么),以及对时间距离的判断(比如吃了多久的披萨才扔掉盒子)。

还有一个是跟踪任务,主要用来识别脖子上挂了个相机的人在特定场景(比如超市、药店)中互动的独特个体。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

接下来是视觉推理任务,分为空间推理和时间推理。

空间推理负责判断物体之间的空间关系、空间接近度(如微波炉与冰箱或水槽相比是否更近)以及空间布局(如选择正确描绘脖子上挂相机的人的公寓的布局图)。

时间推理则包括对活动持续时间的比较、事件发生频率的判断、活动的先决条件、预测(如洗完衣服后最可能做的活动)、因果关系(如第二次离开车库的原因)以及反事实推理(如用烤箱做土豆泥会怎样)。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

导航任务包含了房间到房间的导航、对象检索导航。

以上每个任务有精心设计的问题原型,以确保正确回答问题需要对长视频中的多个时间片段进行信息识别和综合,从而有效测试模型的长期理解能力。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

与此同时,研究人员通过pipeline来生成了HourVideo数据集。

第一步,视频筛选。

团队从Ego4D数据集中手动审核1470个20到120分钟的视频,让5位人类专家选择了其中500个视频,

至于为啥要从Ego4D中选呢,一来是其以自我为中心的视角与autonomous agents和助手的典型视觉输入非常一致;二来是它具有广泛的视觉叙述,有助于创建多样化的题;三来Ego4D的访问许可非常友好。

第二步,候选MCQ生成。

这需要在长视频中跨多个时间片段,进行信息分析和合成。

具体来说,研究人员以20分钟为间隔分割了视频,提取信息转化为结构化格式供大模型处理。最终一共开发了25个特定任务的prompts。

第三步,LLM优化与人工反馈。

在这个阶段,团队实现了一个人工反馈系统,7名经验丰富的人员人工评估每个问题的有效性、答案准确性、错误选项合理性。最终收集了400多个小时的人工反馈,然后设计prompt,自动优化 MCQ₂得到 MCQ₃。

第四步,盲选。

这一阶段的目标是消除可以通过大模型先验知识的问题,或者消除那些可以在不用视频中任何信息就可以回答的问题。

团队用两个独立的大模型——GPT-4-turbo和GPT-4,对MCQ₃进行盲筛,确保剩余 MCQ₄高质量且专门测试长视频语言理解。

第五步也是最后一步,专家优化。

这一步是用来提升MCQ₄质量,将宽泛问题精确化,经此阶段得到高质量 MCQ₅。

4个专家干的事be like,把 “挂着相机的人把钥匙放在哪里了?” 精确成“挂着相机的人购物回家后,把自行车钥匙放在哪里了?”

如上pipeline中,研究图纳队使用了GPT-4来遵循复杂的多步骤指令,同时还使用了CoT提示策略。

此外,pipeline中涉及大模型的所有阶段的问题被设为0.1。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

据统计,HourVideo涵盖77种日常生活场景,包含500个Ego4D视频,视频时长共381个小时、平均时长45.7分钟,其中113个视频时长超过1小时。

每个视频有约26个高质量五选一题,共计12976个问题。

除因果、反事实和导航任务外,问题在任务套件中均匀分布。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

最好表现仍远低于人类专家水平

在实验评估方面,HourVideo采用五选多任务问答(MCQ)任务,以准确率作为评估指标,分别报告每个任务以及整个数据集的准确率。

由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下,每个MCQ应独立评估,但这种方法计算成本巨高,且十分耗时。

因此,实际评估中按任务或子任务对问题进行分批评估,对于预测任务,提供精确的时间戳以便对视频进行有针对性的剪辑,从而平衡计算成本和评估准确性。

研究团队比较了不同的多模态模型在零镜头设置下理解长视频的性能。

主要评估了三类模型,所有这些模型都在一个通用函数下运行:

盲LLM:

指是指在评估过程中,不考虑视频内容,仅依靠自身预先训练的知识来回答问题的大型语言模型。

实验中以GPT-4为代表。它的存在可以揭示模型在多大程度上依赖于其预训练知识,而不是对视频中实际视觉信息的理解。

苏格拉底模型:

对于大多数当前的多模态模型,直接处理非常长的视频存在困难。

因此,采用Socratic模型方法,将视频(总时长为t分钟)分割成1分钟的间隔,每个间隔独立加字幕,然后将这些字幕聚合形成一个全面的基于语言的视频表示,并与通用任务无关的提示一起作为输入进行长视频问答。

实验中分别使用GPT-4和LLaVA- NEXT-34-DPO 为视频字幕生成器,并最终使用GPT-4进行实际问题回答。

原生多模态模型:

像Gemini 1.5 Pro这样的原生多模态模型,在多模态数据(包括音频、视频、图像和文本)上联合训练,能够处理非常长的上下文长度*((2M +),适合直接对HourVideo进行端到端评估。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

为了与模型性能进行对比,实验人员从基准数据集中选取了14个视频,涵盖>18种场景,包括手工制作/绘画、烹饪、建筑/装修、园艺、清洁/洗衣和庭院工作等。

然后邀请了3位人类专家,对上述总时长11.2小时的视频内容进行进行评估,共涉及213个MCQ。

为确保评估的公正性,参与评估的人类专家未参与过这些视频的早期注释工作。

最终,人类专家在评估中的准确率达到了85.0% 。

而盲LLM的准确率为19.6%,Socratic模型准确率略高,原生多模态模型准确率最高,达到了37.3%,仍然远低于人类专家水平。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

此外,独立评估每个MCQ与按任务级别评估相比,性能下降2.1%,但成本增加3倍以上,证明了任务级评估方法的效率和有效性。

最后,团队表示未来计划扩展基准测试,包括更多样化的视频来源(如体育和YouTube视频),纳入音频模态支持,并探索其他感官模态。

同时强调在开发模型时需考虑隐私、伦理等问题。

团队成员

HourVideo项目来自斯坦福李飞飞和吴佳俊团队。

论文共同一作是Keshigeyan Chandrasegaran和Agrim Gupta。

Keshigeyan Chandrasegaran是斯坦福大学计算机科学博士二年级学生,从事计算机视觉和机器学习研究,导师是李飞飞和斯坦福视觉与学习实验室(SVL)联合主任胡安·卡洛斯·尼贝莱斯。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

共同一作Agrim Gupta是斯坦福大学计算机科学专业的博士生,2019年秋季入学,同样是李飞飞的学生。

此前,他曾在微软、DeepMind,有Meta的全职经历,也在Google做过兼职。2018年时,他就跟随李飞飞一同在CVPR上发表了论文。

目前,Agrim的Google Scholar论文被引用量接近6400次。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

李飞飞是大家熟悉的AI教母,AI领域内最具影响力的女性和华人之一。

她33岁成为斯坦福计算机系终身教授,44岁成为美国国家工程院院士,现任斯坦福以人为本人工智能研究院(HAI)院长。

计算机视觉领域标杆成果ImageNet亦是由她一手推动。

此前,李飞飞也曾短暂进入工业界,出任谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立,这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品,包括AutoML、Contact Center AI、Dialogflow Enterprise等。

今年,李飞飞宣布创办空间智能公司World Labs,公司成立不到4个月时间,估值突破10亿美元。

所谓空间智能,即“视觉化为洞察;看见成为理解;理解导致行动”。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

吴佳俊,现任斯坦福大学助理教授,隶属于斯坦福视觉与学习实验室(SVL)和斯坦福人工智能实验室(SAIL)。

他在麻省理工学院完成博士学位,本科毕业于清华大学姚班,曾被誉为“清华十大学神”之一。

同时,他也是李飞飞创业公司World Labs的顾问。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

参考链接:[1]https://arxiv.org/abs/2411.04998v1[2]https://www.worldlabs.ai/team[3]https://keshik6.github.io/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-11 15:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐
斯坦福吴佳俊团队,给机器人设计了一套组装宜家家具的视频教程!具体来说,团队提出了用于机器人的大型多模态数据集IKEA Video Manuals
2024-11-27 09:57:00
...市场上已公开的大多数模型出自初创公司和小型技术开发团队,包括Runaway、Pika等,且目前已呈现较为可观的完成效果和商业模式。(实习生张泊洋对此文亦有贡献)
2024-02-26 08:58:00
空间智能产业化加速 一线企业集体锚定百度智能云
...服务平台,通过百度智能云的AI赋能,该平台链接了内容团队编导、拍摄、剪辑、投放、管理等五大协同角色及工作流,已累计服务超8500家企业客户,有效解决视频创意门槛高、拍摄成本大
2025-07-24 19:59:00
...,目前企业估值已达1亿美金。资金主要将用于核心研发团队的建设,加速多模态大模型和应用产品的研发。成立于2023年3月,生数科技由安全可控人工智能方案提供商瑞莱智慧RealAI
2023-06-19 09:03:00
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...的重要基础。近日,来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准
2024-09-12 09:45:00
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
...让数据集更能反映实际应用中的难点。‍有趣的是,研究团队发现25%的家具存在多种有效的组装顺序。比如Laiva架子就有8种不同的组装方式!这种多样性真实地反映了现实世界中组装任
2024-12-04 09:53:00
全球顶尖人工智能科学家加盟 阿里AI To C业务布局再提速
...频频,引入世界级顶尖人才,组建顶级AI算法研究和工程团队,将进一步刷新国内AI应用赛道的产品范式与竞争水位。据悉,许教授在人工智能工业界和学术界拥有超20年经验,曾在新加坡南
2025-02-08 18:48:00
大模型下探音视频AI市场,战争才刚刚开始 | ToB产业观察
...为保证抽取出的摘要信息的事实准确,大幅度减少幻觉,团队还融合了在推理、对齐和对话问答等方面的研究成果。如在推理能力方面,2022年团队提出了基于大语言模型的知识探测与推理利用
2023-06-07 14:00:00
阶跃星辰宣布开源图生视频模型,多模态领域的DeepSeek时刻何时来?
...会在上海举办。据悉,全球开发者先锋大会源自世界人工智能大会,定位为开发者“社区的社区”,已举办两届。新华社图本次大会以“模塑全球 无限可能”为主题,围绕5个重点领域和6个重点
2025-02-22 16:36:00
更多关于科技的资讯:
巨量引擎 x 刀法研究所《2025爆单内容直播间白皮书》正式发布
从功能满足到价值认同,中国的消费市场已经进入了心智为王的增长新周期,品牌急需建立起一套以内容为核心的全新增长范式,通过引人入胜的故事与消费者建立情感连接和信任关系
2025-08-18 16:19:00
将时针拨回至二十多年前,彼时保险行业的服务场景曾深深镌刻着线下烦琐操作的基因,客户要到网点与业务人员交流,售前、售中及售后均要依托线下网点办理
2025-08-18 12:10:00
少儿人形机器人“主打”陪伴
少儿人形机器人筑境H1在与巡检机器人互动。南京日报/紫金山新闻记者 孙琳 摄□南京日报/紫金山新闻记者孙琳 通讯员焦娇朱强申“大家好
2025-08-18 07:40:00
□南京日报/紫金山新闻记者 邓露洁 通讯员彭海洋“生成一张挂机空调展示海报,要有家居背景,文字要醒目一点。”8月14日下午
2025-08-18 07:41:00
六成参赛机器人“关节”,南京造!
因克斯一体化关节模组赋能2025世界人形机器人运动会六成参赛机器人“关节”,南京造!南报网讯(记者徐宁)8月14日,全球首个以人形机器人为参赛主体的综合性体育盛会“2025世界人形机器人运动会”在北京开幕
2025-08-17 09:53:00
骑手升级“城市骑士”!饿了么淘宝闪购全面提升骑士保障激励体系
8月17号饿了么“骑士日”当天,饿了么董事长兼CEO范禹发布内部信,宣布平台全体骑手正式升级为“城市骑士”,全面升级骑士保障
2025-08-17 15:18:00
合肥神笔生物:基因编辑点亮“中国光”
大皖新闻讯 近日,在青岛海底世界高达9.5米的崖壁前,水流裹挟着自主培育的发光菌奔涌而下,形成一道璀璨流动的“荧光星河瀑布”
2025-08-17 13:26:00
2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动开幕
8月16日,作为商务部2025服务消费季系列活动之一,2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动在贵阳市观山湖区阿云朵仓开幕
2025-08-17 21:02:00
360集团20周年庆典:官宣“All in Agent”战略
8月15日,360集团迎来二十周年,在北京奥林匹克体育中心举办的“360集团20周年荣耀庆典”上,创始人周鸿祎向现场数千名员工发表演讲
2025-08-17 13:03:00
培育壮大十大千亿级产业集群丨天为铝业:弃“建”逐“工” 产业迈入新“铝”程
十堰广电讯(全媒体记者 喻波 叶旭升 通讯员 杜达巍)面对建筑型材市场的激烈竞争,今年,湖北天为铝业科技有限公司果断转型
2025-08-17 19:24:00
7月25日,位于邢台市沙河市的河北德金玻璃有限公司三线生产车间,两条生产线上不同规格的玻璃从自动传送带缓缓下线,一台台机械臂来回抓取新鲜出炉的玻璃原片
2025-08-17 07:29:00
90后寒门CEO,帮了雷军一个大忙
小米汽车YU7爆单后,车越欠越多,根本交付不完。即便雷军7月10日称小米汽车交付已超过30万台,但后面还有小米YU7迫在眉睫的24万个新订单
2025-08-16 15:53:00
用AI帮中小企业傻瓜式获客,这个营销Agent收入每月增长150%
文|邓咏仪编辑|苏建勋2024年中离开阿里,开始在Agent赛道创业时,郭振宇面临不少质疑:到底是做AutoAgent(自主代理
2025-08-17 02:24:00
“产业链上的山东好品牌”青岛市系列现场媒体见面会|现代轻工产业链专场——利和味道(青岛)食品产业股份有限公司
鲁网8月16日讯8月15日,在青岛鑫复盛集团有限公司,青岛市政府新闻办举行“产业链上的山东好品牌”青岛市系列现场媒体见面会第三场——现代轻工产业链专场
2025-08-16 09:40:00
通讯员 张汶宁8月14日,山东泰安举办“产业链上的山东好品牌”泰安企业家系列记者见面会首场活动。泰开集团、泰和电力、山东瑞福锂业
2025-08-16 09:56:00