• 我的订阅
  • 科技

如今的智能体,已经像人一样「浏览」视频了,国内就有

类别:科技 发布时间:2024-11-23 09:43:00 来源:机器之心Pro

当你正在观看一部紧张刺激的动作电影,忽然好奇:

“那个角色到底是在哪一集说的那句话?”

“这里的背景音乐是什么?”

又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。

但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。

英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。

比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答。

如今的智能体,已经像人一样「浏览」视频了,国内就有

在几轮测试过后,我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间,也可以提问某个对象的状态。

例如当我们提问 “工人在什么时候掉落了箱子”,Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题,Blueprint 也可以轻松应答。

不过对于某些细节,例如 “谁捡起了掉在地上的箱子”,Blueprint 则给出了错误的答案。

如今的智能体,已经像人一样「浏览」视频了,国内就有

尤其令人遗憾的是,在试用过程中我们不断遇到流量限制,无限验证等问题,试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段,没有办法快速进行使用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

Blueprint 之外,我们还有什么选择?

经过一番搜索和调研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。

如今的智能体,已经像人一样「浏览」视频了,国内就有

项目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能体系统的开发,为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念,并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程,使每个人都能基于设备建立最有趣的 AI 应用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

OmAgent 的设计架构遵循三个基本原则:

1. 基于图的工作流编排,支持分支、循环、并行等复杂逻辑操作;

2. 原生多模态,提供对音视图文等多种模态数据的支持;

3. 设备中心化,提供便捷的设备连接和交互方法。

简单来说,开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机,智能可穿戴设备(智能眼镜等),智能家居,还包括命令行以及 web 端,开发者只需要专注于智能体本身,而不用分神处理设备。

OmAgent 项目里提供了 6 个示例项目,由浅入深展示了如何搭建一个智能体的完整过程,其中视频理解智能体工作流被 EMNLP 2024 主会收录,实现了和 Blueprint Demo 相似的功能。

OmAgent 表现如何?

根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理,在这个阶段视频会被分解为若干个片段,每个片段会被大模型进行总结,并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试,可以看到智能体可以正确定位事件以及发生的时间。

Q: When did the worker drop the box?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Which direction did the forklift go?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Who picked up the box that fell on the ground?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

接下来我们进行更复杂的测试,OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材,基于其中的画面和剧情进行提问。

Q: 凯特琳收到的钥匙代表了什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 凯特琳和蔚在争执些什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 视频最后几个议员在讨论什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 议员开会的时候谁闯入了进来?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

可以看到,即使面对如此复杂的视频素材,OmAgent 依然可以游刃有余。

除了视频问答之外,OmAgent 的最大特点是可以将智能体直接应用在硬件设备上,我们也对此进行了测试。使用项目提供的 app,我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求,以及你已有的衣橱信息,为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求,并最终返回最合适的搭配。

如今的智能体,已经像人一样「浏览」视频了,国内就有

视频链接:https://mp.weixin.qq.com/s/Nbt4gpDPfE5tXs0CYvVj5g

如果你也刚好试用过 OmAgent,欢迎在评论区交流。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-23 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

荣耀Magic V5发布,一文看懂YOYO到底有多强大
...薄折叠旗舰新品——荣耀Magic V5惊艳亮相。其中,荣耀YOYO智能体凭借更强大的AI技术能力、多功能应用、多生态覆盖,实现从被动响应到主动服务的革命性转变,打破应用与场景
2025-07-04 13:11:00
豆包电脑版,原地封神了!
...琐的步骤和工具割裂打断。而在这个关键时刻,一个能够智能整合工作流程、提高效率的工具,便成为了我们迫切需要的解决方案。现在,随着豆包电脑版的推出,这一局面发生了改变。无论是工作
2024-09-26 13:48:00
...鸿祎也针对这一话题发表演讲。周鸿祎表示,过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT
2023-06-02 01:09:00
为提升西安市养老机构智能技术应用水平,优化养老服务质量与效率,2025年内计划开展养老机构智慧化试点建设。3月8日,西安市民政局等4单位印发《西安市开展智慧养老院建设试点方案》(
2025-03-11 07:31:00
“360智脑大模型4.0”正式发布,图片、文字、视频互相生成,已接入360全家桶 | 最前线
...例外。3月底,创始人周鸿祎就发布主题为“三六零人工智能总动员”的内部信,初步透露了360大模型的相关进展。当时,基于360大模型开发的AI产品矩阵“360智脑”,已首先在搜索
2023-06-14 14:31:00
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
封面新闻记者 马晓玉 边雪2022年底的人工智能的热潮是OpenAI的ChatGPT带来的,而2023年底,谷歌带着它的Gemini高调杀回人工智能圈
2023-12-07 16:15:00
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...和管理方法,让开发人员更清楚地了解API使用情况。 △智能涌现制图Google团队发布文本生成视频模型Lumiere1月24日
2024-01-29 09:34:00
AI点外卖还知道怎样省钱!智谱公布Agent三端升级,手机电脑都能被接管
...形式。更重要的是,我们看到了LLM-OS的可能,基于大模型智能能力,未来有机会实现原生的人机交互,将人机交互范式带向新的阶段
2024-12-02 09:50:00
大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora
...灯光等干扰误报。这些都不是简单的技术 demo ,而是百度智能云在给实际生产「上价值」 的真实写照。IDC 数据也印证了这一点
2024-12-11 09:52:00
更多关于科技的资讯:
□南京日报/紫金山新闻记者卫凌云 通讯员建萱江岛宣不需要司机和快递员,只需通过手机下单,无人物流车便可上门进行商品配送
2025-08-20 07:42:00
人在江宁,“飞”阅玄武湖
第九届未来网络发展大会探展人在江宁,“飞”阅玄武湖□南京日报/紫金山新闻记者张安琪实习生饶嘉萱选择点位玄武湖、打开无人机机箱
2025-08-20 07:42:00
京津冀共推新能源汽车、低空装备产业协同发展提高科技成果转化和产业化水平河北日报讯(记者米彦泽)8月12日,京津冀新能源和智能网联汽车
2025-08-19 08:31:00
解码“小镇冠军”丨广饶县大王镇:一纸风帆闯世界的底气
大众网记者 孙淑娟 东营报道世界造纸,中国领航;中国造纸,广饶担当。在黄河三角洲的沃土上,广饶县依托深厚的产业积淀,崛起为全国举足轻重的高端造纸产业基地
2025-08-19 08:51:00
当我们怀念“上行时期的美”,是在怀念一种向上的状态
最近,一个词在网上悄然走红 ——“经济上行的美”。当全球经济增速放缓,这个词的流行,本质上是大众借由对 “黄金年代” 的集体记忆
2025-08-19 09:03:00
马可波罗IPO上市注册:创新驱动新引擎,引领高质量发展趋势
在日新月异的今天,科技创新已成为推动各行各业发展的关键力量。陶瓷行业,这一承载着千年文明与历史沉淀的传统产业,在新时代的浪潮中
2025-08-19 09:51:00
为提升从业人员的专业素养与服务水平,中国人寿深州支公司开展销售人员培训活动,此次培训特邀公司经验丰富的业务精英与兄弟县市优秀讲师
2025-08-19 09:58:00
为深化全员对代理保险产品的认知,提升精准营销能力,加速拓展市场份额,8月8日下午,滦州农商银行召开2025年下半年代理保险业务专题培训会
2025-08-19 10:04:00
从“好内容”到“好转化”,巨量引擎小游戏迈入“精耕时代”
随着供需两端提速,以及AI的全面入局,一个小游戏崭新的增长时代正在展开。2025 ChinaJoy期间,由中国音像与数字出版协会和上海市虹口区人民政府联合主办的「2025 CIGDC 中国国际游戏开发者大会」在沪举行
2025-08-19 10:52:00
小猿学练机独家引进海尼曼FPC AI+全球顶级资源打造英语学习新范式
近日,教育科技领军品牌小猿学练机在北京举行“小猿学练机×海尼曼”战略合作发布会,宣布学习平板领域独家引进全球知名的 “海尼曼 FPC ”分级阅读体系
2025-08-19 10:52:00
WRC 2025开普勒K2大黄蜂实力吸睛,商业化进程继续加速
2025年8月8日至12日,2025世界机器人大会(WRC 2025)在北京经济技术开发区北人亦创国际会展中心举行。围绕 "让机器人更智慧
2025-08-19 10:52:00
韩国农水产食品流通公社助力姚琛“万里挑一 特别派对”
-以美食为桥深化中韩文化交流-2025年8月9日,内地人气歌手姚琛“万里挑一 特别派对”在北京市昌平区丘比特露营营地火热开唱
2025-08-19 10:52:00
近年来,伴随着出海浪潮不断升温,中国商品正加速迈入高质量、品牌化发展的新阶段。面对出海新趋势,近日,由中国(宁波)跨境电子商务综合试验区
2025-08-19 10:59:00
本报讯 (记者 解 磊)近日,记者从中国塑料加工工业协会(以下简称“中国塑协”)获悉,干法锂电池隔膜骨干生产企业负责人闭门座谈会在深圳召开
2025-08-19 11:03:00
2025第四届山东跨境电商交易会将于10月在烟台举办
在全球贸易格局深刻变革的浪潮中,跨境电商正以惊人的活力重塑国际贸易链路。据权威机构预测,2025年全球电商渗透率将突破25%
2025-08-19 11:16:00