• 我的订阅
  • 科技

Meta 推出 Apollo 开源模型,让 AI “看懂”视频

类别:科技 发布时间:2024-12-19 09:31:00 来源:IT之家

IT之家 12 月 18 日消息,Meta 携手斯坦福大学,推出全新 AI 模型系列 Apollo,显著提升机器对视频的理解能力。

IT之家注:尽管人工智能在处理图像和文本方面取得了巨大进步,但让机器真正理解视频仍然是一个重大挑战。

视频包含复杂的动态信息,人工智能更难处理这些信息,不仅需要更多的计算能力,而且如何设计最佳 AI 视频解读系统,也存在诸多困难。

在视频处理方面,研究人员发现,保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型使用两个不同的组件,一个处理单独的视频帧,而另一个跟踪对象和场景如何随时间变化。

此外,在处理后的视频片段之间添加时间戳,有助于模型理解视觉信息与文本描述之间的关系,保持时间感知。

Meta 推出 Apollo 开源模型,让 AI “看懂”视频

在模型训练方面,团队研究表明训练方法比模型大小更重要。Apollo 模型采用分阶段训练,按顺序激活模型的不同部分,比一次性训练所有部分效果更好。

Meta 推出 Apollo 开源模型,让 AI “看懂”视频

此外 Meta 公司还不断优化数据组合,发现 10~14% 的文本数据,其余部分略微偏向视频内容,可以更好地平衡语言理解和视频处理能力。

Meta 推出 Apollo 开源模型,让 AI “看懂”视频

Apollo 模型在不同规模上均表现出色,较小的 Apollo-3B 超越了 Qwen2-VL 等同等规模的模型,而 Apollo-7B 超过更大参数的同类模型,Meta 已开源 Apollo 的代码和模型权重,并在 Hugging Face 平台提供公开演示。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-19 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

火山引擎发布大模型训练视频预处理方案 已应用于豆包
10月15日消息,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案。目前,该技术方案已应用于豆包视频生成模型。火山引擎总裁谭待在活动致辞表示,在AIGC、多模态等技术的共
2024-10-15 15:07:00
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...又多了一个选择!今日,腾讯宣布旗下的混元视频生成大模型(HunYuan-Video )对外开源,模型参数量 130 亿
2024-12-04 09:48:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频
2024-02-16 18:44:00
meta推出“v-jepa”视频预测模型
...YannLeCun在2022年推出了JEPA(JointEmbeddingPredictiveArchitectures)模型架构
2024-02-18 04:39:00
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
视频大模型进入百模大战。今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI
2024-07-27 09:30:00
GR-2登场!ByteDance Research提出机器人大模型,具备世界建模
最近,ByteDance Research 的第二代机器人大模型 —— GR-2,终于放出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性
2024-10-10 09:57:00
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...量问题而导致难产的节骨眼,Meta毫不客气发了它的视频模型“Movie Gen”,并直接用一个完整的评测体系宣告自己打败了Sora们
2024-10-08 09:51:00
4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!
...视频数就已经破百万。并且,智谱AI也将同源的视频生产模型CogVideoX,一并开源了。7月26日,智谱发布AI 生视频产品「清影」
2024-08-07 09:43:00
更多关于科技的资讯:
山东移动泰安分公司与泰开集团开展“党建强链”交流活动
鲁网3月17日讯为推动数智技术与实体经济深度融合,3月17日,山东移动泰安分公司与泰开集团有限公司开展“党建强链”业务交流活动
2026-03-17 17:15:00
河北新闻网讯(信明帅)近日,开滦股份林西矿业公司聚焦生产管理痛点,成功研发“智慧林矿”微信小程序。该应用将核心生产数据从PC端延伸至移动端
2026-03-17 20:21:00
豫见AI新未来!OpenClaw现身郑州,手把手教企业打造“数字员工”
大河网讯(记者 祝传鹏)近日,由河南省人工智能产业赋能中心联合河南省中原数字经济研究院主办、紫光股份旗下新华三集团承办的OpenClaw实战沙龙活动在郑州举办
2026-03-17 20:58:00
晋源区绿色包装园区:马力全开跑出“加速度”
春潮涌动启新程,实干奋进正当时。3月16日,走进晋源区绿色包装园区的包装车间,机器轰鸣作响、工人忙碌有序,印刷、覆膜……各道工序衔接流畅
2026-03-17 21:02:00
江南时报讯 为发掘培养资金业务交易后备人才,锤炼交易团队专业素养,近日,海门农商银行组织召开了首场金融市场方向兴趣小组会议
2026-03-18 01:36:00
南昌多家手机门店确认调价(图)
本报讯 (全媒体记者陈春伟、吴国东)3月10日,OPPO宣布部分机型调价;3月16日,vivo宣布调整部分建议零售价……3月以来
2026-03-18 04:49:00
合肥政务“一网统飞”平台运行超半年 覆盖24个重点场景
大皖新闻讯 鼠标轻点,合肥董铺水库的实时画面便清晰呈现在大屏幕上——这是合肥市政务“一网统飞”平台日常运行的一幕。从2025年8月正式上线以来
2026-03-17 21:23:00
3月16日,在2026雄安国际医疗大健康技术应用大赛场景打造对接会现场,东蔓医疗创始人李应武介绍了智能病历和AI医疗智能体技术
2026-03-17 17:27:00
在2026雄安国际医疗大健康技术应用大赛场景打造对接会现场,苏州体素信息科技有限公司首席运营官张昊文介绍了眼底影像人工智能技术。该技术充分发挥AI在眼底影像诊断中的价值,赋能基层
2026-03-17 17:29:00
智能时代,奥克斯空调凭什么继续领先?
‍在一个万物皆可智能的时代,深耕空调领域32年的奥克斯空调,如何继续领跑时代?又如何更好地满足全球市场和用户的需求?AWE2026展会现场
2026-03-17 18:00:00
徐琳:TikTok电商实战专家,跨境行业的领跑者
在跨境电商的快速发展中,徐琳以其扎实的实战能力和教学热情,成为行业内备受信赖的名字。作为TikTok小店项目总监,她不仅深谙平台政策
2026-03-17 18:00:00
福州新闻网3月17日讯(记者 谭湘竹 通讯员 吴玉晶 郑新润)记者17日获悉,闽清县云龙乡万福产业园的东华软件项目基地建设全面提速
2026-03-17 18:26:00
3月16日,在2026雄安国际医疗大健康技术应用大赛场景打造对接会现场,博灵脑机(杭州)科技有限公司市场销售副总高杨介绍了公司非侵入式脑机接口项目。该项目让中风偏瘫患者康复更高效
2026-03-17 19:33:00
从一台家电的智能感知,到一条生产线的高效运转,再到一条产业链的协同升级,人工智能与实体经济的深度融合,正在山东大地书写生动实践
2026-03-17 17:49:00
中新经纬3月17日电 (魏薇)一个人、一台笔记本电脑、一套人工智能(AI)工具,便能注册并运营一家公司。如今,这种被称为“一人公司”(One Person Company
2026-03-17 14:15:00