• 我的订阅
  • 科技

如今的智能体,已经像人一样「浏览」视频了,国内就有

类别:科技 发布时间:2024-11-23 09:43:00 来源:机器之心Pro

当你正在观看一部紧张刺激的动作电影,忽然好奇:

“那个角色到底是在哪一集说的那句话?”

“这里的背景音乐是什么?”

又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。

但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。

英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。

比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答。

如今的智能体,已经像人一样「浏览」视频了,国内就有

在几轮测试过后,我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间,也可以提问某个对象的状态。

例如当我们提问 “工人在什么时候掉落了箱子”,Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题,Blueprint 也可以轻松应答。

不过对于某些细节,例如 “谁捡起了掉在地上的箱子”,Blueprint 则给出了错误的答案。

如今的智能体,已经像人一样「浏览」视频了,国内就有

尤其令人遗憾的是,在试用过程中我们不断遇到流量限制,无限验证等问题,试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段,没有办法快速进行使用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

Blueprint 之外,我们还有什么选择?

经过一番搜索和调研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。

如今的智能体,已经像人一样「浏览」视频了,国内就有

项目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能体系统的开发,为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念,并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程,使每个人都能基于设备建立最有趣的 AI 应用。

如今的智能体,已经像人一样「浏览」视频了,国内就有

OmAgent 的设计架构遵循三个基本原则:

1. 基于图的工作流编排,支持分支、循环、并行等复杂逻辑操作;

2. 原生多模态,提供对音视图文等多种模态数据的支持;

3. 设备中心化,提供便捷的设备连接和交互方法。

简单来说,开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机,智能可穿戴设备(智能眼镜等),智能家居,还包括命令行以及 web 端,开发者只需要专注于智能体本身,而不用分神处理设备。

OmAgent 项目里提供了 6 个示例项目,由浅入深展示了如何搭建一个智能体的完整过程,其中视频理解智能体工作流被 EMNLP 2024 主会收录,实现了和 Blueprint Demo 相似的功能。

OmAgent 表现如何?

根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理,在这个阶段视频会被分解为若干个片段,每个片段会被大模型进行总结,并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试,可以看到智能体可以正确定位事件以及发生的时间。

Q: When did the worker drop the box?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Which direction did the forklift go?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: Who picked up the box that fell on the ground?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

接下来我们进行更复杂的测试,OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材,基于其中的画面和剧情进行提问。

Q: 凯特琳收到的钥匙代表了什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 凯特琳和蔚在争执些什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 视频最后几个议员在讨论什么?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

Q: 议员开会的时候谁闯入了进来?

A:

如今的智能体,已经像人一样「浏览」视频了,国内就有

可以看到,即使面对如此复杂的视频素材,OmAgent 依然可以游刃有余。

除了视频问答之外,OmAgent 的最大特点是可以将智能体直接应用在硬件设备上,我们也对此进行了测试。使用项目提供的 app,我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求,以及你已有的衣橱信息,为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求,并最终返回最合适的搭配。

如今的智能体,已经像人一样「浏览」视频了,国内就有

视频链接:https://mp.weixin.qq.com/s/Nbt4gpDPfE5tXs0CYvVj5g

如果你也刚好试用过 OmAgent,欢迎在评论区交流。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-23 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

荣耀Magic V5发布,一文看懂YOYO到底有多强大
...薄折叠旗舰新品——荣耀Magic V5惊艳亮相。其中,荣耀YOYO智能体凭借更强大的AI技术能力、多功能应用、多生态覆盖,实现从被动响应到主动服务的革命性转变,打破应用与场景
2025-07-04 13:11:00
豆包电脑版,原地封神了!
...琐的步骤和工具割裂打断。而在这个关键时刻,一个能够智能整合工作流程、提高效率的工具,便成为了我们迫切需要的解决方案。现在,随着豆包电脑版的推出,这一局面发生了改变。无论是工作
2024-09-26 13:48:00
...鸿祎也针对这一话题发表演讲。周鸿祎表示,过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT
2023-06-02 01:09:00
为提升西安市养老机构智能技术应用水平,优化养老服务质量与效率,2025年内计划开展养老机构智慧化试点建设。3月8日,西安市民政局等4单位印发《西安市开展智慧养老院建设试点方案》(
2025-03-11 07:31:00
“360智脑大模型4.0”正式发布,图片、文字、视频互相生成,已接入360全家桶 | 最前线
...例外。3月底,创始人周鸿祎就发布主题为“三六零人工智能总动员”的内部信,初步透露了360大模型的相关进展。当时,基于360大模型开发的AI产品矩阵“360智脑”,已首先在搜索
2023-06-14 14:31:00
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
封面新闻记者 马晓玉 边雪2022年底的人工智能的热潮是OpenAI的ChatGPT带来的,而2023年底,谷歌带着它的Gemini高调杀回人工智能圈
2023-12-07 16:15:00
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...和管理方法,让开发人员更清楚地了解API使用情况。 △智能涌现制图Google团队发布文本生成视频模型Lumiere1月24日
2024-01-29 09:34:00
AI点外卖还知道怎样省钱!智谱公布Agent三端升级,手机电脑都能被接管
...形式。更重要的是,我们看到了LLM-OS的可能,基于大模型智能能力,未来有机会实现原生的人机交互,将人机交互范式带向新的阶段
2024-12-02 09:50:00
大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora
...灯光等干扰误报。这些都不是简单的技术 demo ,而是百度智能云在给实际生产「上价值」 的真实写照。IDC 数据也印证了这一点
2024-12-11 09:52:00
更多关于科技的资讯:
脱口秀演员「炸现场」,喜剧综艺「炸市场」
伴随《喜剧之王单口季》第二季(下称《喜单2》)圆满收官,一众“小人物”也终于走出心底的浪浪山:翟佳宁一语点醒内耗人:唯心主义的最高境界是唯我独尊
2025-09-14 06:43:00
日前,山西转型综改示范区入区企业潞安化工机械(集团)有限公司成功通过国家市场监督管理总局的严格审核,获颁压力容器分析设计(SAD)许可资质
2025-09-14 07:28:00
机器隆隆,一排排制作好的夹芯板整齐排列,格外亮眼。连日来,山西钢构科工有限公司围护结构智能制造车间内机器轰鸣、智能设备有序运转
2025-09-14 07:28:00
百度发债,释放何种信号?
9月8日,百度宣布计划于美国境外以离岸交易方式,发行以人民币计值的优先无担保票据;票据发行所得款项净额将用作一般公司用途
2025-09-13 09:38:00
不挤牙膏、全面堆料,iPhone 17能赢回中国用户吗?
“透视图”是36氪新推出的轻量化数据图文栏目——以数据透视趋势,以图片呈现要点。"Talk is Cheap. Show me the data
2025-09-13 14:55:00
全网高呼“小米太子你糊涂啊”,他被辞退揭开大厂的头号隐患
数日前人们讨论得有多热闹,如今的沉默就多震耳欲聋。小米辞退被外界称为“雷军接班人”的王腾一事,似乎再无下文。就连王腾以前几乎天天发的微博
2025-09-13 23:24:00
鲁网9月12日讯近日,北京国际大数据交易所专家朱大培携蘑菇车联信息科技有限公司、北京优锘科技有限公司、泰安协同软件有限公司一行来高新区调研数据要素相关工作
2025-09-13 08:51:00
德百家电澳德乐店开业盛典暨卡萨帝美食争霸赛报名火热开启
鲁网9月12日讯(记者 逯广宇 实习记者 李安琦)当智能科技邂逅舌尖美味,一场兼具创意与惊喜的盛宴即将登场!9月10日
2025-09-13 09:26:00
江苏南京:机器人“交警” “上岗”倒计时
机器人“交警” “上岗”倒计时能指挥交通,会查酒驾和巡逻,正由宁企携手国内人形机器人“领头羊”联手开发众擎机器人未来将走上大街
2025-09-13 09:57:00
济南能投集团斩获CMMI5级国际认证,软件研发实力跻身国际领先水平!
近日,济南能投集团山东和同信息科技股份有限公司(以下简称“和同信息”)成功通过全球软件能力成熟度模型集成最高等级——CMMI5级认证
2025-09-13 12:04:00
济南能源投资控股集团2025年高校毕业生业务轮训圆满收官
9月12日,济南能源投资控股集团2025年高校毕业生业务轮训工作正式落下帷幕。本次轮训为期两周,聚焦新入职大学生成长需求与能投集团人才储备目标
2025-09-13 12:11:00
数智化会员经济峰会暨数韵商城产业集群品牌盛典圆满落幕!
数智化会员经济峰会暨数韵商城产业集群品牌盛典2025年9月9日,湖南长沙星光熠熠、热潮涌动!绿之韵·数韵国际重磅打造的数智化会员经济峰会暨数韵商城产业集群品牌盛典盛大启幕
2025-09-13 15:20:00
叫叫亮相2025年服贸会 儿童数字内容领域创新成果集中亮相
2025 年 9 月 10 日至 14 日,以 “数智领航,服贸焕新” 为年度主题的中国国际服务贸易交易会(简称 “服贸会”)在北京盛大举办
2025-09-13 15:20:00
贵州酒业封坛策划公司亿加管理助力酱酒产业峰会、封坛文化节落地
项目总策划总负责人:龙亿加(龙娟)项目总督导执行人:甘霖项目服务体系督导:甘霖项目营销体系建设:胡建强项目销讲营销成交:胡建强项目营销辅导:刘进路项目品牌视觉管理:张怀宇项目仪式指导司仪:一洋从 “基础筑基” 到 “细节落地”
2025-09-13 15:21:00
当前,人工智能以颠覆性力量重塑教育生态,为人们带来高效、个性化的学习体验。聚焦国内,教育数字化已成为我国开辟教育发展新赛道
2025-09-13 15:22:00