• 我的订阅
  • 科技

Meta 推出 Apollo 开源模型,让 AI “看懂”视频

类别:科技 发布时间:2024-12-19 09:31:00 来源:IT之家

IT之家 12 月 18 日消息,Meta 携手斯坦福大学,推出全新 AI 模型系列 Apollo,显著提升机器对视频的理解能力。

IT之家注:尽管人工智能在处理图像和文本方面取得了巨大进步,但让机器真正理解视频仍然是一个重大挑战。

视频包含复杂的动态信息,人工智能更难处理这些信息,不仅需要更多的计算能力,而且如何设计最佳 AI 视频解读系统,也存在诸多困难。

在视频处理方面,研究人员发现,保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型使用两个不同的组件,一个处理单独的视频帧,而另一个跟踪对象和场景如何随时间变化。

此外,在处理后的视频片段之间添加时间戳,有助于模型理解视觉信息与文本描述之间的关系,保持时间感知。

Meta 推出 Apollo 开源模型,让 AI “看懂”视频

在模型训练方面,团队研究表明训练方法比模型大小更重要。Apollo 模型采用分阶段训练,按顺序激活模型的不同部分,比一次性训练所有部分效果更好。

Meta 推出 Apollo 开源模型,让 AI “看懂”视频

此外 Meta 公司还不断优化数据组合,发现 10~14% 的文本数据,其余部分略微偏向视频内容,可以更好地平衡语言理解和视频处理能力。

Meta 推出 Apollo 开源模型,让 AI “看懂”视频

Apollo 模型在不同规模上均表现出色,较小的 Apollo-3B 超越了 Qwen2-VL 等同等规模的模型,而 Apollo-7B 超过更大参数的同类模型,Meta 已开源 Apollo 的代码和模型权重,并在 Hugging Face 平台提供公开演示。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-19 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

火山引擎发布大模型训练视频预处理方案 已应用于豆包
10月15日消息,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案。目前,该技术方案已应用于豆包视频生成模型。火山引擎总裁谭待在活动致辞表示,在AIGC、多模态等技术的共
2024-10-15 15:07:00
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...又多了一个选择!今日,腾讯宣布旗下的混元视频生成大模型(HunYuan-Video )对外开源,模型参数量 130 亿
2024-12-04 09:48:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频
2024-02-16 18:44:00
meta推出“v-jepa”视频预测模型
...YannLeCun在2022年推出了JEPA(JointEmbeddingPredictiveArchitectures)模型架构
2024-02-18 04:39:00
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
视频大模型进入百模大战。今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI
2024-07-27 09:30:00
GR-2登场!ByteDance Research提出机器人大模型,具备世界建模
最近,ByteDance Research 的第二代机器人大模型 —— GR-2,终于放出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性
2024-10-10 09:57:00
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...量问题而导致难产的节骨眼,Meta毫不客气发了它的视频模型“Movie Gen”,并直接用一个完整的评测体系宣告自己打败了Sora们
2024-10-08 09:51:00
4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!
...视频数就已经破百万。并且,智谱AI也将同源的视频生产模型CogVideoX,一并开源了。7月26日,智谱发布AI 生视频产品「清影」
2024-08-07 09:43:00
更多关于科技的资讯:
厦门网讯(厦门日报佘峥)福建省首个AI+教育大模型——“文夔”昨天正式发布,它不仅能帮助教师批改作业、试卷,还能从招聘信息中做出分析
2025-12-26 07:59:00
上传一张聊天截图,便能智能分析用户画像;孕期有疑问,即可一键对话获取专业信息……人工智能高速发展的时代,垂直母婴领域也迎来新的应用落地
2025-12-26 06:39:00
惠及11个停车场 可免费领取 元旦来武林商圈停车有福利
元旦武林商圈有多热闹?购物、打卡、看表演、逛面包节……活动多到停不下来!但你是不是也在担心:车往哪儿停?停车费是不是很贵
2025-12-26 06:39:00
最近,杭州市市场监督管理局出台《网络直播知识产权协同保护风控法务指引(试行)》。《指引》既是落实国家知识产权保护示范区建设的要求
2025-12-26 06:39:00
鄂源源摘要:测试用例排序是提升回归测试效率的重要方法。传统排序策略多依赖静态特征,难以适应软件快速迭代与复杂变更场景。强化学习具备自适应和策略优化能力
2025-12-26 06:50:00
成安“一品一播”赋能工业企业发展主播带货推动工业品线上热销河北新闻网讯(记者刘剑英)因一场直播,前不久,一名新疆卡车司机跨越3000多公里
2025-12-25 11:29:00
海尔×牛客AI面试:用技术重塑候选人体验,让招聘更有温度
效率与品质并行的时代,AI正在改写招聘的底层逻辑。从校招高峰到全球人才争夺战,越来越多企业正让AI深度介入招聘流程,让人才筛选像生产一样精准
2025-12-25 12:27:00
百度AI营销 × 茅台酱香:以岁月记忆沉淀品牌温度,打造全链路沟通范式
那些关于奔赴与抵达的足迹,那些串联起奋斗与团圆的旅程,不仅是时光的印记,更藏着一整年的热爱与坚守。当这些珍贵的生活轨迹被温柔唤醒
2025-12-25 12:29:00
不只是杯壶!新华社文创·哈尔斯“必胜”系列正式上线
近日,新华社文创与头部杯壶品牌哈尔斯携手推出“必胜”系列杯壶产品,该系列产品的策划灵感,源自纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会受阅现场划破长空的铿锵口号
2025-12-25 12:29:00
鸿蒙星火,桃李芳华:2025 HarmonyOS人才布道师年度论坛凝聚生态向心力
12月20日,“2025 HarmonyOS人才布道师年度论坛”于重庆举行。本次论坛不仅是一场对2025年度HarmonyOS人才发展的最新进展与成果的集中展示
2025-12-25 12:31:00
TPACK框架赋能高中英语教师信息化教学设计:现状、挑战与路径
摘要: 本研究基于TPACK框架,采用混合方法调查河南省高中英语教师信息化教学现状。结果显示:教师总体能力尚可(3.85)
2025-12-25 13:19:00
中新经纬12月25日电 “携程黑板报”公众号25日发布关于用户关切问题的郑重声明。针对近日大家高度关注的用户数据安全等问题
2025-12-25 14:01:00
长白时评评论员 久泰平近日,中国人民大学“书记严选”文创羽绒服热销火爆全网,源自中国人民大学党委书记张东刚在小红书社交平台上发帖推荐该校近期上新的人大超绒羽绒服
2025-12-25 14:06:00
Soul App联合复旦发布2026社交趋势十大关键词
近日,社交平台Soul App旗下Just So Soul研究院联合复旦大学传播与国家治理研究中心、复旦大学价值认知传播与人智协同治理交叉创新团队
2025-12-25 14:13:00
腾讯扣叮发布2026新品,助力人工智能教育普及
12月22日,2025腾讯扣叮渠道生态大会暨2026年新产品推介会在深圳举行。会上,腾讯扣叮宣布“快叮岛”迎来全新升级版本
2025-12-25 14:13:00