• 我的订阅
  • 科技

如今的智能体,已经像人一样「浏览」视频了,国内就有

类别:科技 发布时间:2024-11-23 09:43:00 来源:机器之心Pro

当你正在观看一部紧张刺激的动作电影,忽然好奇:

“那个角色到底是在哪一集说的那句话?”

“这里的背景音乐是什么?”

又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。

但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。

英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。

比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答。

如今的智能体,已经像人一样「浏览」视频了,国内就有

在几轮测试过后,我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间,也可以提问某个对象的状态。

例如当我们提问 “工人在什么时候掉落了箱子”,Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题,Blueprint 也可以轻松应答。

不过对于某些细节,例如 “谁捡起了掉在地上的箱子”,Blueprint 则给出了错误的答案。

如今的智能体,已经像人一样「浏览」视频了,国内就有

尤其令人遗憾的是,在试用过程中我们不断遇到流量限制,无限验证等问题,试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段,没有办法快速进行使用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

Blueprint 之外,我们还有什么选择?

经过一番搜索和调研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。

如今的智能体,已经像人一样「浏览」视频了,国内就有

项目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能体系统的开发,为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念,并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程,使每个人都能基于设备建立最有趣的 AI 应用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

OmAgent 的设计架构遵循三个基本原则:

1. 基于图的工作流编排,支持分支、循环、并行等复杂逻辑操作;

2. 原生多模态,提供对音视图文等多种模态数据的支持;

3. 设备中心化,提供便捷的设备连接和交互方法。

简单来说,开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机,智能可穿戴设备(智能眼镜等),智能家居,还包括命令行以及 web 端,开发者只需要专注于智能体本身,而不用分神处理设备。

OmAgent 项目里提供了 6 个示例项目,由浅入深展示了如何搭建一个智能体的完整过程,其中视频理解智能体工作流被 EMNLP 2024 主会收录,实现了和 Blueprint Demo 相似的功能。

OmAgent 表现如何?

根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理,在这个阶段视频会被分解为若干个片段,每个片段会被大模型进行总结,并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试,可以看到智能体可以正确定位事件以及发生的时间。

Q: When did the worker drop the box?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Which direction did the forklift go?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Who picked up the box that fell on the ground?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

接下来我们进行更复杂的测试,OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材,基于其中的画面和剧情进行提问。

Q: 凯特琳收到的钥匙代表了什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 凯特琳和蔚在争执些什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 视频最后几个议员在讨论什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 议员开会的时候谁闯入了进来?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

可以看到,即使面对如此复杂的视频素材,OmAgent 依然可以游刃有余。

除了视频问答之外,OmAgent 的最大特点是可以将智能体直接应用在硬件设备上,我们也对此进行了测试。使用项目提供的 app,我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求,以及你已有的衣橱信息,为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求,并最终返回最合适的搭配。

如今的智能体,已经像人一样「浏览」视频了,国内就有

视频链接:https://mp.weixin.qq.com/s/Nbt4gpDPfE5tXs0CYvVj5g

如果你也刚好试用过 OmAgent,欢迎在评论区交流。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-23 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

荣耀Magic V5发布,一文看懂YOYO到底有多强大
...薄折叠旗舰新品——荣耀Magic V5惊艳亮相。其中,荣耀YOYO智能体凭借更强大的AI技术能力、多功能应用、多生态覆盖,实现从被动响应到主动服务的革命性转变,打破应用与场景
2025-07-04 13:11:00
豆包电脑版,原地封神了!
...琐的步骤和工具割裂打断。而在这个关键时刻,一个能够智能整合工作流程、提高效率的工具,便成为了我们迫切需要的解决方案。现在,随着豆包电脑版的推出,这一局面发生了改变。无论是工作
2024-09-26 13:48:00
...鸿祎也针对这一话题发表演讲。周鸿祎表示,过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT
2023-06-02 01:09:00
为提升西安市养老机构智能技术应用水平,优化养老服务质量与效率,2025年内计划开展养老机构智慧化试点建设。3月8日,西安市民政局等4单位印发《西安市开展智慧养老院建设试点方案》(
2025-03-11 07:31:00
“360智脑大模型4.0”正式发布,图片、文字、视频互相生成,已接入360全家桶 | 最前线
...例外。3月底,创始人周鸿祎就发布主题为“三六零人工智能总动员”的内部信,初步透露了360大模型的相关进展。当时,基于360大模型开发的AI产品矩阵“360智脑”,已首先在搜索
2023-06-14 14:31:00
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
封面新闻记者 马晓玉 边雪2022年底的人工智能的热潮是OpenAI的ChatGPT带来的,而2023年底,谷歌带着它的Gemini高调杀回人工智能圈
2023-12-07 16:15:00
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...和管理方法,让开发人员更清楚地了解API使用情况。 △智能涌现制图Google团队发布文本生成视频模型Lumiere1月24日
2024-01-29 09:34:00
AI点外卖还知道怎样省钱!智谱公布Agent三端升级,手机电脑都能被接管
...形式。更重要的是,我们看到了LLM-OS的可能,基于大模型智能能力,未来有机会实现原生的人机交互,将人机交互范式带向新的阶段
2024-12-02 09:50:00
大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora
...灯光等干扰误报。这些都不是简单的技术 demo ,而是百度智能云在给实际生产「上价值」 的真实写照。IDC 数据也印证了这一点
2024-12-11 09:52:00
更多关于科技的资讯:
三联家电“2026年货节”盛大开启!国补叠加多重优惠!
鲁网1月16日讯岁末将至,年味渐浓,家电换新成为不少家庭筹备新年的重要环节。1月16日至2月16日,三联家电正式启动“2026年货节”大型促销活动
2026-01-16 11:24:00
安徽发布“人工智能+万物”方案 2030年应用普及率将超九成
大皖新闻讯 1月16日上午,记者从安徽省政府新闻发布会获悉,《安徽省“人工智能+万物”应用行动方案》日前发布实施,到2027年
2026-01-16 12:35:00
合肥工业大学设立聚变科学与工程学院
大皖新闻讯 1月16日,2026核聚变能科技与产业大会在合肥聚变堆园区拉开帷幕。会上,合肥工业大学聚变科学与工程学院正式揭牌
2026-01-16 13:07:00
成都数字文创产业有了“定制化”保护服务
中国消费者报成都讯(记者刘铭)核心创意遭窃取、版权边界难界定、AIGC(人工智能生成内容)内容确权难……这些痛点困扰着数字文创企业的创新与发展
2026-01-16 11:01:00
全国首发垂直领域钢铁大模型有了升级版河钢发布钢铁行业全域大模型威赛博2.0河北日报讯(记者贡宪云)1月15日,河钢集团在唐山发布了钢铁行业全域大模型威赛博2
2026-01-16 08:15:00
高灯科技再登毕马威金融科技双50榜单!
近日,由雄安新区商务和投资促进局、雄安新区改革发展局等单位支持,毕马威主办的“毕马威金融科技企业双50榜单发布会”在雄安新区举行
2026-01-16 08:37:00
厦企布局AI玩具赛道 以人工智能技术赋能传统产业升级
麦明智能员工介绍AI数字梦工厂玩偶的功能。厦门网讯(文/厦门日报记者 林露虹 图/厦门日报记者 卢剑豪)毛茸茸的外表,圆滚滚的身子——刚走进软件园一期的厦门麦明智能科技有限公司
2026-01-16 08:51:00
临漳县“一品一播”云销“邺城优品”
图为临漳县“一品一播”企业样板直播间正在直播。河北新闻网讯(白增安、宋龙雨)后台订单实时跳动,打包区工作人员忙碌分拣……近日
2026-01-16 09:42:00
即时零售竞争升维,AI让“一句话点外卖”成为现实
于琛1月15日,阿里巴巴集团宣布将旗下人工智能(AI)应用程序“千问”接入其网络购物、旅游服务等业务生态,朝着打造“一站式AI平台”目标迈出了迄今为止的最大步伐
2026-01-16 10:38:00
郭海英中国出版协会、中国书刊发行业协会日前召开2026阅读X大会,会议发布的《2025年开卷图书零售市场趋势洞察报告》(简称《报告》)显示
2026-01-16 10:38:00
甘肃宏大在工业电子雷管核心工艺与智能化装配技术创新上迈出关键步伐
日前,工业和信息化部安全生产司对甘肃宏大下属平凉兴安“无药头快接式工业电子雷管工艺技术及智能兼容装配生产线研发项目”予以立项备案
2026-01-16 09:24:00
“帮我点23杯霸王茶姬的伯牙绝弦,其中12杯正常冰,8杯去冰,3杯热饮。”下午1点,杭州一互联网公司项目经理李薇打开千问App
2026-01-16 07:45:00
18年以后,齐金良仍会想起自己第一次看见那根采用日本技术和标准的预制管桩的情景。那时的他刚进入兆弟集团,也第一次接触到长十几米
2026-01-16 07:45:00
张锦涛 柳州工学院在现代建筑行业中,数字化技术的广泛应用正逐步改变传统的质量控制方式。通过将建筑工程的各个环节与数字化技术相结合
2026-01-16 07:06:00
中新经纬1月15日电 据“深圳市消费者委员会”微信号消息,近期,深圳市消委会开展儿童洞洞鞋比较试验,从线上、线下随机购买15款样品
2026-01-15 21:00:00