• 我的订阅
  • 科技

如今的智能体,已经像人一样「浏览」视频了,国内就有

类别:科技 发布时间:2024-11-23 09:43:00 来源:机器之心Pro

当你正在观看一部紧张刺激的动作电影,忽然好奇:

“那个角色到底是在哪一集说的那句话?”

“这里的背景音乐是什么?”

又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。

但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。

英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。

比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答。

如今的智能体,已经像人一样「浏览」视频了,国内就有

在几轮测试过后,我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间,也可以提问某个对象的状态。

例如当我们提问 “工人在什么时候掉落了箱子”,Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题,Blueprint 也可以轻松应答。

不过对于某些细节,例如 “谁捡起了掉在地上的箱子”,Blueprint 则给出了错误的答案。

如今的智能体,已经像人一样「浏览」视频了,国内就有

尤其令人遗憾的是,在试用过程中我们不断遇到流量限制,无限验证等问题,试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段,没有办法快速进行使用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

Blueprint 之外,我们还有什么选择?

经过一番搜索和调研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。

如今的智能体,已经像人一样「浏览」视频了,国内就有

项目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能体系统的开发,为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念,并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程,使每个人都能基于设备建立最有趣的 AI 应用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

OmAgent 的设计架构遵循三个基本原则:

1. 基于图的工作流编排,支持分支、循环、并行等复杂逻辑操作;

2. 原生多模态,提供对音视图文等多种模态数据的支持;

3. 设备中心化,提供便捷的设备连接和交互方法。

简单来说,开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机,智能可穿戴设备(智能眼镜等),智能家居,还包括命令行以及 web 端,开发者只需要专注于智能体本身,而不用分神处理设备。

OmAgent 项目里提供了 6 个示例项目,由浅入深展示了如何搭建一个智能体的完整过程,其中视频理解智能体工作流被 EMNLP 2024 主会收录,实现了和 Blueprint Demo 相似的功能。

OmAgent 表现如何?

根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理,在这个阶段视频会被分解为若干个片段,每个片段会被大模型进行总结,并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试,可以看到智能体可以正确定位事件以及发生的时间。

Q: When did the worker drop the box?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Which direction did the forklift go?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Who picked up the box that fell on the ground?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

接下来我们进行更复杂的测试,OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材,基于其中的画面和剧情进行提问。

Q: 凯特琳收到的钥匙代表了什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 凯特琳和蔚在争执些什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 视频最后几个议员在讨论什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 议员开会的时候谁闯入了进来?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

可以看到,即使面对如此复杂的视频素材,OmAgent 依然可以游刃有余。

除了视频问答之外,OmAgent 的最大特点是可以将智能体直接应用在硬件设备上,我们也对此进行了测试。使用项目提供的 app,我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求,以及你已有的衣橱信息,为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求,并最终返回最合适的搭配。

如今的智能体,已经像人一样「浏览」视频了,国内就有

视频链接:https://mp.weixin.qq.com/s/Nbt4gpDPfE5tXs0CYvVj5g

如果你也刚好试用过 OmAgent,欢迎在评论区交流。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-23 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

荣耀Magic V5发布,一文看懂YOYO到底有多强大
...薄折叠旗舰新品——荣耀Magic V5惊艳亮相。其中,荣耀YOYO智能体凭借更强大的AI技术能力、多功能应用、多生态覆盖,实现从被动响应到主动服务的革命性转变,打破应用与场景
2025-07-04 13:11:00
豆包电脑版,原地封神了!
...琐的步骤和工具割裂打断。而在这个关键时刻,一个能够智能整合工作流程、提高效率的工具,便成为了我们迫切需要的解决方案。现在,随着豆包电脑版的推出,这一局面发生了改变。无论是工作
2024-09-26 13:48:00
...鸿祎也针对这一话题发表演讲。周鸿祎表示,过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT
2023-06-02 01:09:00
为提升西安市养老机构智能技术应用水平,优化养老服务质量与效率,2025年内计划开展养老机构智慧化试点建设。3月8日,西安市民政局等4单位印发《西安市开展智慧养老院建设试点方案》(
2025-03-11 07:31:00
“360智脑大模型4.0”正式发布,图片、文字、视频互相生成,已接入360全家桶 | 最前线
...例外。3月底,创始人周鸿祎就发布主题为“三六零人工智能总动员”的内部信,初步透露了360大模型的相关进展。当时,基于360大模型开发的AI产品矩阵“360智脑”,已首先在搜索
2023-06-14 14:31:00
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
封面新闻记者 马晓玉 边雪2022年底的人工智能的热潮是OpenAI的ChatGPT带来的,而2023年底,谷歌带着它的Gemini高调杀回人工智能圈
2023-12-07 16:15:00
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...和管理方法,让开发人员更清楚地了解API使用情况。 △智能涌现制图Google团队发布文本生成视频模型Lumiere1月24日
2024-01-29 09:34:00
AI点外卖还知道怎样省钱!智谱公布Agent三端升级,手机电脑都能被接管
...形式。更重要的是,我们看到了LLM-OS的可能,基于大模型智能能力,未来有机会实现原生的人机交互,将人机交互范式带向新的阶段
2024-12-02 09:50:00
大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora
...灯光等干扰误报。这些都不是简单的技术 demo ,而是百度智能云在给实际生产「上价值」 的真实写照。IDC 数据也印证了这一点
2024-12-11 09:52:00
更多关于科技的资讯:
邦德激光正式入驻Dream Park全球总部基地
近日,邦德激光总部员工全部迁入位于济南市历城区春晖路3999号的Dream Park全球总部基地,标志着公司发展进入全新阶段
2026-02-06 20:50:00
2026年WGS世界政府峰会 迪拜王储乘坐百度萝卜快跑无人车参会!
“解放双手、未来已来!”在体验完萝卜快跑全无人驾驶后,迪拜王储谢赫·哈姆丹主动在海外社交媒体上发文,赞叹这次“非常丝滑”的未来出行
2026-02-06 17:08:00
三联家电章丘首店世茂店盛大开业,一站式高端家电消费新升级
鲁网2月6日讯春启新程,盛境绽放!2月6日,扎根齐鲁四十一载的山东家电零售领军品牌三联家电,携章丘区域首店正式入驻章丘世茂广场
2026-02-06 17:12:00
造谣一张嘴,辟谣跑断腿。一段时间以来,网络“黑嘴”伤企现象时有发生,严重影响企业正常发展。现摘编山东青岛市网信办文章《守护营商网络净土
2026-02-06 17:46:00
蚂蚁集团发布《2025年消费者权益保护年报》:金融普惠教育系列行动覆盖2.4亿人次
中国消费者报报道(记者司宇萌)日前,蚂蚁集团正式发布《2025年消费者权益保护年报》(以下简称《年报》)。《年报》显示
2026-02-06 18:11:00
第四届储能大会将于5月22日至24日在南京举办
中国消费者报北京讯(记者吴博峰)2月5日,以“技术突围•生态协同”为主题、由江苏省储能行业协会联合行业媒体共同主办的CESC2026第四届储能大会暨储能及智能电网设备应用展览会媒体见面会在京举行
2026-02-06 18:11:00
聚焦国际优质内容 京东图书推动法国与英国经典作品销量与影响力双提升
当下,法国文学在中国阅读市场的热度持续攀升,相关数据显示2025对华出口额同比增长超过30%。作为引进与销售海外文化作品的渠道之一
2026-02-06 18:17:00
河钢集团张宣科技:聚力体系构建 推动智能制造向高端跃迁
河北新闻网讯(王杨、曹莹莹)曾经,以“氢冶炼”替代“碳冶炼”实现了行业突围。如今,产业向智造升级,河钢集团张宣科技又该如何续写传奇
2026-02-06 20:00:00
在全球制造业向高端化、智能化转型的浪潮中,激光技术作为核心支撑力量,正重塑产业发展格局。武汉华工激光工程有限责任公司(以下简称 “华工激光”)作为中国激光工业化应用的开创者与引领者
2026-02-06 15:27:00
国家超算互联网核心节点上线试运行,托举中国AI算力应用关键一跃!
2月5日,国家超算互联网应用技术大会暨核心节点上线试运行仪式在郑州隆重举行。发改委、科技部、工信部、国家数据局、国家自然科学基金委等单位莅临现场
2026-02-06 15:28:00
河北交投禄发集团徐水服务区升级改造换新颜 顾客出行体验再提升
视频摄制:周明哲河北新闻网讯(牟岚)2月4日,位于京港澳高速公路京石段121公里处的河北交投禄发集团所属徐水服务区升级改造后重新亮相
2026-02-06 15:29:00
随着银发经济从基础保障型供给向精神文化型消费升级,银发文教正在成为银发产业中最具潜力的细分赛道。与早期的兴趣培训不同,如今的银发文教已经覆盖文化素养
2026-02-06 15:39:00
近日,倍轻松推出的“早睡娃娃”系列以现象级热度席卷社交网络,成为年货消费市场的一抹亮色。1月23日至25日,全国巡展首站在深圳KKONE购物中心启动
2026-02-06 15:47:00
毛绒玩具产业是雄安新区容城县的特色优势产业。马年春节将至,位于容城县的中国(雄安新区)玩具总部基地内,上百款马年毛绒玩具扎堆上新
2026-02-06 13:57:00