我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

类别：科技发布时间：2024-11-11 13:31:00 来源：量子位

空间智能版ImageNet来了，来自斯坦福李飞飞吴佳俊团队！

HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。

通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。

2009年，李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet，它的出现极大推动计算机视觉算法的发展——懂CV的都是知道这里面的门道有多深。

现在，随着多模态迅猛发展，团队认为“现有的视频基准测试，大多集中在特定领域或短视频上”，并且“这些数据集的平均视频长度较短，限制了对长视频理解能力的全面评估”。

于是，空间智能版ImageNet应运而生。

HourVideo包含500个来自Ego4D数据集的第一人称视角视频，时长在20到120分钟之间，涉及77种日常活动。

评测结果表示，人类专家水平显著优于目前长上下文多模态模型中最厉害的Gemini Pro 1.5（85.0%对37.3%）。

在多模态能力上，大模型们还任重而道远。

HourVideo如何炼成？

之所以提出HourVideo，是因为研究人员发现目前长视频理解越来越重要，而现有评估benchmark存在不足。

多模态越来越卷，人们期待AI被赋予autonomous agents的类似能力；而从人类角度来看，由于人类具备处理长时间视觉处理的能力，因此能在现实视觉中感知、计划和行动。

因此，长视频理解对实现这一目标至关重要。

而当前的多模态评估benchmark，主要还是集中在评测单张图像或短视频片段（几秒到三分钟），对长视频理解的探索还有待开发。

不可否认的是，AI评估长视频理解面临诸多挑战，譬如要设计任务、避免通过先验知识或简短片断回答等。

因此，团队提出HourVideo。

这是一个为长视频理解而设计的基准数据集。

为了设计出需要长期理解的任务，团队首先提出了一个新的任务对应套件，包含总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、对象检索）任务，共18个子任务。

其中，总结任务要求模型对视频中的关键事件、主要交互等进行概括性描述，例如总结出脖子上挂了个相机的人在超市中有什么关键交互行为。

感知任务由两部分构成，

一个是回忆任务，包括事实回忆（比如脖子上挂了个相机的人，在超市拿起的乳制品）和序列回忆（比如那个人在超市称完西红柿过后做了什么），以及对时间距离的判断（比如吃了多久的披萨才扔掉盒子）。

还有一个是跟踪任务，主要用来识别脖子上挂了个相机的人在特定场景（比如超市、药店）中互动的独特个体。

接下来是视觉推理任务，分为空间推理和时间推理。

空间推理负责判断物体之间的空间关系、空间接近度（如微波炉与冰箱或水槽相比是否更近）以及空间布局（如选择正确描绘脖子上挂相机的人的公寓的布局图）。

时间推理则包括对活动持续时间的比较、事件发生频率的判断、活动的先决条件、预测（如洗完衣服后最可能做的活动）、因果关系（如第二次离开车库的原因）以及反事实推理（如用烤箱做土豆泥会怎样）。

导航任务包含了房间到房间的导航、对象检索导航。

以上每个任务有精心设计的问题原型，以确保正确回答问题需要对长视频中的多个时间片段进行信息识别和综合，从而有效测试模型的长期理解能力。

与此同时，研究人员通过pipeline来生成了HourVideo数据集。

第一步，视频筛选。

团队从Ego4D数据集中手动审核1470个20到120分钟的视频，让5位人类专家选择了其中500个视频，

至于为啥要从Ego4D中选呢，一来是其以自我为中心的视角与autonomous agents和助手的典型视觉输入非常一致；二来是它具有广泛的视觉叙述，有助于创建多样化的题；三来Ego4D的访问许可非常友好。

第二步，候选MCQ生成。

这需要在长视频中跨多个时间片段，进行信息分析和合成。

具体来说，研究人员以20分钟为间隔分割了视频，提取信息转化为结构化格式供大模型处理。最终一共开发了25个特定任务的prompts。

第三步，LLM优化与人工反馈。

在这个阶段，团队实现了一个人工反馈系统，7名经验丰富的人员人工评估每个问题的有效性、答案准确性、错误选项合理性。最终收集了400多个小时的人工反馈，然后设计prompt，自动优化 MCQ₂得到 MCQ₃。

第四步，盲选。

这一阶段的目标是消除可以通过大模型先验知识的问题，或者消除那些可以在不用视频中任何信息就可以回答的问题。

团队用两个独立的大模型——GPT-4-turbo和GPT-4，对MCQ₃进行盲筛，确保剩余 MCQ₄高质量且专门测试长视频语言理解。

第五步也是最后一步，专家优化。

这一步是用来提升MCQ₄质量，将宽泛问题精确化，经此阶段得到高质量 MCQ₅。

4个专家干的事be like，把 “挂着相机的人把钥匙放在哪里了？” 精确成“挂着相机的人购物回家后，把自行车钥匙放在哪里了？”

如上pipeline中，研究图纳队使用了GPT-4来遵循复杂的多步骤指令，同时还使用了CoT提示策略。

此外，pipeline中涉及大模型的所有阶段的问题被设为0.1。

据统计，HourVideo涵盖77种日常生活场景，包含500个Ego4D视频，视频时长共381个小时、平均时长45.7分钟，其中113个视频时长超过1小时。

每个视频有约26个高质量五选一题，共计12976个问题。

除因果、反事实和导航任务外，问题在任务套件中均匀分布。

最好表现仍远低于人类专家水平

在实验评估方面，HourVideo采用五选多任务问答（MCQ）任务，以准确率作为评估指标，分别报告每个任务以及整个数据集的准确率。

由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下，每个MCQ应独立评估，但这种方法计算成本巨高，且十分耗时。

因此，实际评估中按任务或子任务对问题进行分批评估，对于预测任务，提供精确的时间戳以便对视频进行有针对性的剪辑，从而平衡计算成本和评估准确性。

研究团队比较了不同的多模态模型在零镜头设置下理解长视频的性能。

主要评估了三类模型，所有这些模型都在一个通用函数下运行：

盲LLM：

指是指在评估过程中，不考虑视频内容，仅依靠自身预先训练的知识来回答问题的大型语言模型。

实验中以GPT-4为代表。它的存在可以揭示模型在多大程度上依赖于其预训练知识，而不是对视频中实际视觉信息的理解。

苏格拉底模型：

对于大多数当前的多模态模型，直接处理非常长的视频存在困难。

因此，采用Socratic模型方法，将视频（总时长为t分钟）分割成1分钟的间隔，每个间隔独立加字幕，然后将这些字幕聚合形成一个全面的基于语言的视频表示，并与通用任务无关的提示一起作为输入进行长视频问答。

实验中分别使用GPT-4和LLaVA- NEXT-34-DPO 为视频字幕生成器，并最终使用GPT-4进行实际问题回答。

原生多模态模型：

像Gemini 1.5 Pro这样的原生多模态模型，在多模态数据（包括音频、视频、图像和文本）上联合训练，能够处理非常长的上下文长度*（（2M +），适合直接对HourVideo进行端到端评估。

为了与模型性能进行对比，实验人员从基准数据集中选取了14个视频，涵盖>18种场景，包括手工制作/绘画、烹饪、建筑/装修、园艺、清洁/洗衣和庭院工作等。

然后邀请了3位人类专家，对上述总时长11.2小时的视频内容进行进行评估，共涉及213个MCQ。

为确保评估的公正性，参与评估的人类专家未参与过这些视频的早期注释工作。

最终，人类专家在评估中的准确率达到了85.0% 。

而盲LLM的准确率为19.6%，Socratic模型准确率略高，原生多模态模型准确率最高，达到了37.3%，仍然远低于人类专家水平。

此外，独立评估每个MCQ与按任务级别评估相比，性能下降2.1%，但成本增加3倍以上，证明了任务级评估方法的效率和有效性。

最后，团队表示未来计划扩展基准测试，包括更多样化的视频来源（如体育和YouTube视频），纳入音频模态支持，并探索其他感官模态。

同时强调在开发模型时需考虑隐私、伦理等问题。

团队成员

HourVideo项目来自斯坦福李飞飞和吴佳俊团队。

论文共同一作是Keshigeyan Chandrasegaran和Agrim Gupta。

Keshigeyan Chandrasegaran是斯坦福大学计算机科学博士二年级学生，从事计算机视觉和机器学习研究，导师是李飞飞和斯坦福视觉与学习实验室（SVL）联合主任胡安·卡洛斯·尼贝莱斯。

共同一作Agrim Gupta是斯坦福大学计算机科学专业的博士生，2019年秋季入学，同样是李飞飞的学生。

此前，他曾在微软、DeepMind，有Meta的全职经历，也在Google做过兼职。2018年时，他就跟随李飞飞一同在CVPR上发表了论文。

目前，Agrim的Google Scholar论文被引用量接近6400次。

李飞飞是大家熟悉的AI教母，AI领域内最具影响力的女性和华人之一。

她33岁成为斯坦福计算机系终身教授，44岁成为美国国家工程院院士，现任斯坦福以人为本人工智能研究院（HAI）院长。

计算机视觉领域标杆成果ImageNet亦是由她一手推动。

此前，李飞飞也曾短暂进入工业界，出任谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立，这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品，包括AutoML、Contact Center AI、Dialogflow Enterprise等。

今年，李飞飞宣布创办空间智能公司World Labs，公司成立不到4个月时间，估值突破10亿美元。

所谓空间智能，即“视觉化为洞察；看见成为理解；理解导致行动”。

吴佳俊，现任斯坦福大学助理教授，隶属于斯坦福视觉与学习实验室（SVL）和斯坦福人工智能实验室（SAIL）。

他在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神”之一。

同时，他也是李飞飞创业公司World Labs的顾问。

参考链接：[1]https://arxiv.org/abs/2411.04998v1[2]https://www.worldlabs.ai/team[3]https://keshik6.github.io/

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-11 15:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于团队,智能,空间,视频,模态,模型的资讯：

空间智能新进展：教机器人组装家具，实现操作步骤与真实视频对齐

斯坦福吴佳俊团队，给机器人设计了一套组装宜家家具的视频教程！具体来说，团队提出了用于机器人的大型多模态数据集IKEA Video Manuals

2024-11-27 09:57:00

拓宽行业应用场景多模态大模型加速通用AI进程

...市场上已公开的大多数模型出自初创公司和小型技术开发团队，包括Runaway、Pika等，且目前已呈现较为可观的完成效果和商业模式。（实习生张泊洋对此文亦有贡献）

2024-02-26 08:58:00

空间智能产业化加速一线企业集体锚定百度智能云

...服务平台，通过百度智能云的AI赋能，该平台链接了内容团队编导、拍摄、剪辑、投放、管理等五大协同角色及工作流，已累计服务超8500家企业客户，有效解决视频创意门槛高、拍摄成本大

2025-07-24 19:59:00

聚焦产业级多模态大模型研发，清华团队「生数科技」完成近亿元天

...，目前企业估值已达1亿美金。资金主要将用于核心研发团队的建设，加速多模态大模型和应用产品的研发。成立于2023年3月，生数科技由安全可控人工智能方案提供商瑞莱智慧RealAI

2023-06-19 09:03:00

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试

...的重要基础。近日，来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准

2024-09-12 09:45:00

全自动组装家具！斯坦福发布IKEA Video Manua

...让数据集更能反映实际应用中的难点。‍有趣的是，研究团队发现25%的家具存在多种有效的组装顺序。比如Laiva架子就有8种不同的组装方式！这种多样性真实地反映了现实世界中组装任

2024-12-04 09:53:00

全球顶尖人工智能科学家加盟阿里AI To C业务布局再提速

...频频，引入世界级顶尖人才，组建顶级AI算法研究和工程团队，将进一步刷新国内AI应用赛道的产品范式与竞争水位。据悉，许教授在人工智能工业界和学术界拥有超20年经验，曾在新加坡南

2025-02-08 18:48:00

大模型下探音视频AI市场，战争才刚刚开始 | ToB产业观察

...为保证抽取出的摘要信息的事实准确，大幅度减少幻觉，团队还融合了在推理、对齐和对话问答等方面的研究成果。如在推理能力方面，2022年团队提出了基于大语言模型的知识探测与推理利用

2023-06-07 14:00:00

阶跃星辰宣布开源图生视频模型，多模态领域的DeepSeek时

...会在上海举办。据悉，全球开发者先锋大会源自世界人工智能大会，定位为开发者“社区的社区”，已举办两届。新华社图本次大会以“模塑全球无限可能”为主题，围绕5个重点领域和6个重点

2025-02-22 16:36:00

更多关于科技的资讯：

沈洁任蓟州区代理区长扫码阅读手机版

据“掌上蓟州”微信公众号消息，天津市蓟州区第二届人民代表大会常务委员会第三十五次会议决定：沈洁为天津市蓟州区人民政府代理区长。

2025-12-31 23:10:00

福建省消委会发布元旦消费提示：警惕“伪智能”陷阱科技消费需

东南网12月31日讯（本网记者卢金福）元旦佳节将至，消费市场迎来新一轮热潮。面对促销活动纷至沓来、消费场景多元拓展的新形势

2025-12-31 23:29:00

皖企长鑫科技向上交所递交IPO招股书

大皖新闻讯 2025年12月30日，总部位于合肥的长鑫科技集团股份有限公司（以下简称“长鑫科技”）正式向上海证券交易所递交招股书

2025-12-31 21:33:00

双语视频丨这一年，我们没有走遍世界，但世界，走进了《Glob

大河网讯这一年，我们没有走遍世界，但世界，走进了《Global Talk》。2025年，《Global Talk》结识了来自全球近30个国家和地区的朋友——他们带着各自的故事

2025-12-31 22:33:00

上药控股山东总部携手浪潮智慧建筑打造智慧、绿色医药园区新标杆

近日，上药控股山东总部携手浪潮智慧建筑，构建涵盖16大智能化系统的智慧园区体系，以智慧云平台为中枢推进全要素数字化升级

2025-12-31 22:59:00

石家庄二中新添“AI学伴”，有道AI答疑笔以“引导式答疑”助

河北新闻网讯为推动教育资源均衡发展，让智能科技惠及更多青少年，12月18日，石家庄市“希望工程”事业发展中心、石家庄市青少年发展基金会联合网易有道

2025-12-31 17:18:00

警惕伪智能陷阱科技消费要验真

中国消费者报福州讯（记者张文章）12月31日，福建省消费者权益保护委员会聚焦“科技+消费”核心场景发布消费提示，提醒广大消费者警惕伪智能陷阱

2025-12-31 17:33:00

三亚海旅免税城五周年庆典点燃免税消费热情

中国消费者报海口讯（记者黄劼）2025年12月30日，三亚海旅免税城迎来开业五周年。海旅免税以“High Five 5•五周年狂欢庆典”为主题

2025-12-31 17:33:00

麦当劳中国第4400家LEED认证绿色餐厅落户福州

福州新华都大厦餐厅盛大开业，“开心书屋”全国首发麦当劳中国第4400家LEED认证绿色餐厅落户福州辞旧迎新之际，麦当劳中国第4400家LEED认证绿色餐厅“福州新华都大厦（五四路）餐厅”盛大开业

2025-12-31 17:49:00

“艾白”来了！福州日报社首位机器人员工正式上岗！

“艾白”来了！12月31日，福州日报社首位机器人员工正式上岗！

2025-12-31 17:49:00

嘀嗒出行发布《2025职场顺风车用户画像及体验洞察报告》

河北新闻网讯（记者李春炜）12月31日，嘀嗒出行发布《2025职场顺风车用户画像及体验洞察报告》，基于嘀嗒顺风车大数据和近万名嘀嗒顺风车用户调研

2025-12-31 18:04:00

倒计时1小时！《色彩中国》2026即将开播扫码阅读手机版

2025-12-31 18:56:00

一批国家标准将实施，涉儿童家具安全、光伏组件报废等

中新经纬12月31日电 “市说新语”微信号31日消息，2026年1月1日起，婴幼儿及儿童家具安全、光伏组件报废、汽车维护检测和诊断

2025-12-31 18:57:00

河北天翼农担业务系统实现关键技术突破

图为国和公司办公大楼。河北新闻网讯（吴建春）近日，河北天翼科贸发展有限公司（简称“河北天翼”）为某农担公司量身打造的担保业务系统业务提报模块

2025-12-31 19:36:00

冬虫夏草产业进入供给侧重构期，东阳光鲜虫草以成熟生态繁育技术

在大健康消费持续增长的大背景下，滋补品类正在经历结构性调整，其中冬虫夏草行业尤为突出。长期依赖野生采挖的供给模式，使行业在产量

2025-12-31 14:26:00

头条订阅服务

空间智能版ImageNet来了！李飞飞吴佳俊团队出品