• 我的订阅
  • 科技

如今的智能体,已经像人一样「浏览」视频了,国内就有

类别:科技 发布时间:2024-11-23 09:43:00 来源:机器之心Pro

当你正在观看一部紧张刺激的动作电影,忽然好奇:

“那个角色到底是在哪一集说的那句话?”

“这里的背景音乐是什么?”

又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。

但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。

英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。

比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答。

如今的智能体,已经像人一样「浏览」视频了,国内就有

在几轮测试过后,我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间,也可以提问某个对象的状态。

例如当我们提问 “工人在什么时候掉落了箱子”,Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题,Blueprint 也可以轻松应答。

不过对于某些细节,例如 “谁捡起了掉在地上的箱子”,Blueprint 则给出了错误的答案。

如今的智能体,已经像人一样「浏览」视频了,国内就有

尤其令人遗憾的是,在试用过程中我们不断遇到流量限制,无限验证等问题,试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段,没有办法快速进行使用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

Blueprint 之外,我们还有什么选择?

经过一番搜索和调研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。

如今的智能体,已经像人一样「浏览」视频了,国内就有

项目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能体系统的开发,为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念,并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程,使每个人都能基于设备建立最有趣的 AI 应用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

OmAgent 的设计架构遵循三个基本原则:

1. 基于图的工作流编排,支持分支、循环、并行等复杂逻辑操作;

2. 原生多模态,提供对音视图文等多种模态数据的支持;

3. 设备中心化,提供便捷的设备连接和交互方法。

简单来说,开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机,智能可穿戴设备(智能眼镜等),智能家居,还包括命令行以及 web 端,开发者只需要专注于智能体本身,而不用分神处理设备。

OmAgent 项目里提供了 6 个示例项目,由浅入深展示了如何搭建一个智能体的完整过程,其中视频理解智能体工作流被 EMNLP 2024 主会收录,实现了和 Blueprint Demo 相似的功能。

OmAgent 表现如何?

根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理,在这个阶段视频会被分解为若干个片段,每个片段会被大模型进行总结,并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试,可以看到智能体可以正确定位事件以及发生的时间。

Q: When did the worker drop the box?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Which direction did the forklift go?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Who picked up the box that fell on the ground?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

接下来我们进行更复杂的测试,OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材,基于其中的画面和剧情进行提问。

Q: 凯特琳收到的钥匙代表了什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 凯特琳和蔚在争执些什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 视频最后几个议员在讨论什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 议员开会的时候谁闯入了进来?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

可以看到,即使面对如此复杂的视频素材,OmAgent 依然可以游刃有余。

除了视频问答之外,OmAgent 的最大特点是可以将智能体直接应用在硬件设备上,我们也对此进行了测试。使用项目提供的 app,我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求,以及你已有的衣橱信息,为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求,并最终返回最合适的搭配。

如今的智能体,已经像人一样「浏览」视频了,国内就有

视频链接:https://mp.weixin.qq.com/s/Nbt4gpDPfE5tXs0CYvVj5g

如果你也刚好试用过 OmAgent,欢迎在评论区交流。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-23 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

荣耀Magic V5发布,一文看懂YOYO到底有多强大
...薄折叠旗舰新品——荣耀Magic V5惊艳亮相。其中,荣耀YOYO智能体凭借更强大的AI技术能力、多功能应用、多生态覆盖,实现从被动响应到主动服务的革命性转变,打破应用与场景
2025-07-04 13:11:00
豆包电脑版,原地封神了!
...琐的步骤和工具割裂打断。而在这个关键时刻,一个能够智能整合工作流程、提高效率的工具,便成为了我们迫切需要的解决方案。现在,随着豆包电脑版的推出,这一局面发生了改变。无论是工作
2024-09-26 13:48:00
...鸿祎也针对这一话题发表演讲。周鸿祎表示,过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT
2023-06-02 01:09:00
为提升西安市养老机构智能技术应用水平,优化养老服务质量与效率,2025年内计划开展养老机构智慧化试点建设。3月8日,西安市民政局等4单位印发《西安市开展智慧养老院建设试点方案》(
2025-03-11 07:31:00
“360智脑大模型4.0”正式发布,图片、文字、视频互相生成,已接入360全家桶 | 最前线
...例外。3月底,创始人周鸿祎就发布主题为“三六零人工智能总动员”的内部信,初步透露了360大模型的相关进展。当时,基于360大模型开发的AI产品矩阵“360智脑”,已首先在搜索
2023-06-14 14:31:00
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
封面新闻记者 马晓玉 边雪2022年底的人工智能的热潮是OpenAI的ChatGPT带来的,而2023年底,谷歌带着它的Gemini高调杀回人工智能圈
2023-12-07 16:15:00
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...和管理方法,让开发人员更清楚地了解API使用情况。 △智能涌现制图Google团队发布文本生成视频模型Lumiere1月24日
2024-01-29 09:34:00
AI点外卖还知道怎样省钱!智谱公布Agent三端升级,手机电脑都能被接管
...形式。更重要的是,我们看到了LLM-OS的可能,基于大模型智能能力,未来有机会实现原生的人机交互,将人机交互范式带向新的阶段
2024-12-02 09:50:00
大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora
...灯光等干扰误报。这些都不是简单的技术 demo ,而是百度智能云在给实际生产「上价值」 的真实写照。IDC 数据也印证了这一点
2024-12-11 09:52:00
更多关于科技的资讯:
家委必藏!毕业照别乱找!忆学堂封神级拍摄,给娃留一辈子的青春纪念
在毕业季影像服务赛道,“专业”与“可靠”是始终不变的核心诉求。忆学堂从一间工作室成长为全国连锁品牌,凭借实打实的硬实力
2025-12-22 14:13:00
喜茶携手泡泡玛特星星人,首次全球同步联名活动正式上线
鲁网12月22日讯12月22日,喜茶与泡泡玛特(POP MART)旗下人气IP星星人的联名活动正式登陆喜茶全球门店,不少喜茶门店开业后就迅速进入制茶繁忙状态
2025-12-22 14:14:00
正雅于法国巴黎迪士尼成功举办早期矫治学术峰会
2025年12月13日,正雅齿科在法国巴黎迪士尼乐园酒店成功举办了"儿童早期矫治学术研讨会"。本次会议吸引了来自法国、瑞士
2025-12-22 14:20:00
2025游戏公益+研究报告在沪发布:公益是游戏体验的“加分项”
有多少游戏企业在游戏产品里做公益?他们做的公益活动被多少玩家接触过?在游戏里做公益是否会影响玩家游戏体验?在12月19日举办的2025中国游戏产业年会游戏公益+论坛上
2025-12-22 14:21:00
青岛城市传媒广场发布2026业态升级战略,携手多元品牌共筑“潮趣换新,自在未来”
12月20日,“潮趣换新,自在未来——青岛城市传媒广场新起点暨2026业态升级发布会”在青岛西海岸隆重举行。活动标志着这座扎根区域八年的文化商业地标正式开启全面焕新阶段
2025-12-22 14:49:00
年底前一项大利好政策来了!刚刚,央行发布《关于实施一次性信用修复政策有关安排的通知》,这意味着个人信用救济的重磅政策落地
2025-12-22 14:57:00
【宅男财经|专家面对面】据看看新闻报道,12月21日,俞敏洪在讲话中谈及董宇辉离职,仍亲切地喊他“孩子”,表示对目前结果感到满意
2025-12-22 15:00:00
安踏儿童携手广州亲子跑,足弓PRO跑鞋「萌芽」配色首发亮相
近日,2025广州亲子跑在广州天河体育中心活力开跑,约600组家庭、近2000名大小跑者携手出发。现场安踏儿童将“足弓成长计划”与广州亲子跑深度融合
2025-12-22 15:21:00
大力神杯“打卡”青岛!海信RGB-Mini LED电视提前解锁2026年世界杯极致观赛
鲁网12月22日讯12月21日,象征足坛最高荣耀的大力神杯“空降”青岛,2026世界杯定制电视海信RGB-Mini LED电视同步亮相
2025-12-22 15:26:00
近日,动力锂电池专列从四川宜宾港鸣笛启程,一路驰骋奔赴上海,这一历史性时刻,如同一束强光,照亮了动力锂电池运输领域全新的发展方向
2025-12-22 15:36:00
中国消费者报报道(记者王小月)随着智能手机、笔记本电脑等消费电子产品迭代速度不断加快,大量旧设备涌入回收与再流通渠道。然而
2025-12-22 15:42:00
为期两天的2025年平谷国际宠物博览会已圆满收官,本次博览会汇聚400余家优质展商,集中展示名猫、名犬、宠物食品、用品等特色产品
2025-12-22 15:51:00
青岛打卡大力神杯!海信携世界杯定制冰箱揭秘“冠军级保鲜”密码
鲁网12月22日讯12月21日,象征世界足球最高荣誉的大力神杯在青岛首次面向公众展出,引发了广泛关注。活动现场,海信冰箱携三款2026世界杯定制冰箱同步亮相
2025-12-22 16:00:00
大力神杯青岛焕彩,容声以“鲜”世技术赴冠军之约
鲁网12月22日讯“技术好的很多,但冠军才能捧杯!”12月21日,青岛迎来足球界至高荣耀——象征全球足球巅峰荣誉的大力神杯在此开启24小时公开展出
2025-12-22 16:03:00
海信冰箱磁吸光幕门板荣获2025国际CMF设计奖
鲁网12月22日讯日前,全球设计领域权威奖项——2025国际CMF设计奖正式揭晓,海信冰箱全球首创的磁吸光幕门板凭借在材质
2025-12-22 16:04:00