• 我的订阅
  • 科技

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

类别:科技 发布时间:2024-12-05 09:45:00 来源:量子位

多模态检索增强生成(mRAG)也有o1思考推理那味儿了!

阿里通义实验室新研究推出自适应规划的多模态检索智能体。

名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。

随便上传一张图,询问任何问题,OmniSearch都会进行一段“思考过程”,不仅会将复杂问题拆解检索,而且会根据当前检索结果和问题情境动态调整下一步检索策略。

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

相比传统mRAG受制于其静态的检索策略,这种设计不仅提高了检索效率,也显著增强了模型生成内容的准确性。

为评估OmniSearch,研究团队构建了全新Dyn-VQA数据集。

在一系列基准数据集上的实验中,OmniSearch展现了显著的性能优势。特别是在处理需要多步推理、多模态知识和快速变化答案的问题时,OmniSearch相较于现有的mRAG方法表现更为优异。

目前OmniSearch在魔搭社区还有demo可玩。

动态检索规划框架,打破传统mRAG局限

传统mRAG方法遵循固定的检索流程,典型的步骤如下:

输入转化:接收多模态输入(例如图像+文本问题),将图像转化为描述性文本(例如通过image caption模型)。 单一模态检索:将问题或描述性文本作为检索查询,向知识库发送单一模态检索请求(通常是文本检索)。 固定生成流程:将检索到的信息与原始问题结合,交由MLLM生成答案。

OmniSearch旨在解决传统mRAG方法的以下痛点:

静态检索策略的局限:传统方法采用固定的两步检索流程,无法根据问题和检索内容动态调整检索路径,导致信息获取效率低下。 检索查询过载:单一检索查询往往包含了多个查询意图,反而会引入大量无关信息,干扰模型的推理过程。

为克服上述局限,OmniSearch引入了一种动态检索规划框架。

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

OmniSearch的核心架构包括:

规划智能体(Planning Agent):负责对原始问题进行逐步拆解,根据每个检索步骤的反馈决定下一步的子问题及检索策略。 检索器(Retriever):执行实际的检索任务,支持图像检索、文本检索以及跨模态检索。 子问题求解器(Sub-question Solver):对检索到的信息进行总结和解答,具备高度的可扩展性,可以与不同大小的多模态大语言模型集成。 迭代推理与检索(Iterative Reasoning and Retrieval):通过递归式的检索与推理流程,逐步接近问题的最终答案。 多模态特征的交互:有效处理文本、图像等多模态信息,灵活调整检索策略。 反馈循环机制(Feedback Loop):在每一步检索和推理后,反思当前的检索结果并决定下一步行动,以提高检索的精确度和有效性。

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

构建新数据集进行实验评估

为了更好地评估OmniSearch和其它mRAG方法的性能,研究团队构建了全新的Dyn-VQA数据集。Dyn-VQA包含1452个动态问题,涵盖了以下三种类型:

答案快速变化的问题:这类问题的背景知识不断更新,需要模型具备动态的再检索能力。例如,询问某位明星的最新电影票房,答案会随着时间的推移而发生变化。 多模态知识需求的问题:问题需要同时从多模态信息(如图像、文本等)中获取知识。例如,识别一张图片中的球员,并回答他的球队图标是什么。 多跳问题:问题需要多个推理步骤,要求模型在检索后进行多步推理。

这些类型的问题相比传统的VQA数据集需要更复杂的检索流程,更考验多模态检索方法对复杂检索的规划能力。

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

在Dyn-VQA数据集上的表现

答案更新频率:对于答案快速变化的问题,OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法,准确率提升了近88%。 多模态知识需求:OmniSearch能够有效地结合图像和文本进行检索,其在需要额外视觉知识的复杂问题上的表现远超现有模型,准确率提高了35%以上。 多跳推理问题:OmniSearch通过多次检索和动态规划,能够精确解决需要多步推理的问题,实验结果表明其在这类问题上的表现优于当前最先进的多模态模型,准确率提升了约35%。

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

在其它数据集上的表现

接近人类级别表现:

OmniSearch在大多数VQA任务上达到了接近人类水平的表现。例如,在VQAv2和A-OKVQA数据集中,OmniSearch的准确率分别达到了70.34和84.12,显著超越了传统mRAG方法。

复杂问题处理能力:

在更具挑战性的Dyn-VQA数据集上,OmniSearch通过多步检索策略显著提升了模型的表现,达到了50.03的F1-Recall评分,相比基于GPT-4V的传统两步检索方法提升了近14分。

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

模块化能力与可扩展性

OmniSearch可以灵活集成不同规模和类型的多模态大语言模型(MLLM)作为子问题求解器。

无论是开源模型(如Qwen-VL-Chat)还是闭源模型(如GPT-4V),OmniSearch都能通过动态规划与这些模型协作完成复杂问题的解决。

它的模块化设计允许根据任务需求选择最合适的模型,甚至在不同阶段调用不同大小的MLLM,以在性能和计算成本之间实现灵活平衡。

下面是OmniSearch和不同模型配合的实验结果:

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

Paper:https://arxiv.org/abs/2411.02937Github:https://github.com/Alibaba-NLP/OmniSearchModelScope Demo: https://modelscope.cn/studios/iic/OmniSearch/summary?header=default&fullWidth=false

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-05 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

AI“大姨”现场刁难智能客服!直击一群AI打PK赛,真能落地的那种
...大模型以及丰富第三方模型(如Llama、百川等)。支持多模态模型服务,提供灵活高效易用的模型API与SDK。提供文本生成、图片生成、视觉理解、视频生成、语音识别以及语音合成能
2024-09-23 09:53:00
...还能理解和索引视频、图片、语音等多样化内容。这种多模态的处理能力,使得AI搜索能够从更广泛的数据源中提取信息,为用户提供更丰富和准确的搜索结果。同时,AI也重塑了搜索的产品形
2024-11-16 11:04:00
中国科学院地化所发布国际首个月球专业大模型,基于通义大模型及阿里云百炼专属版打造
...地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”(简称“月球专业大模型”)。该大模型以视觉、多模态及自然语言等通义系列模型为基模,结合RAG检索增强等技术,
2024-08-29 15:42:00
WAIC 2025盛大开幕:WISHEE以多模型交响乐团重塑AI穿戴边界
...并导航,耳机设置,音乐播放全部能脱离手机完成。2.多模态交互:开口即得的无缝体验无需唤醒词,无需连接手机,按住耳机向AI朋友随时开启“语音对话”3.声学黑科技:听见未来的声音
2025-07-29 12:30:00
全球顶尖人工智能科学家加盟 阿里AI To C业务布局再提速
...出任阿里集团副总裁,向吴嘉汇报,负责AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。近期
2025-02-08 18:48:00
昆仑万维重磅发布天工AI高级搜索功能,做最懂金融投资、科研学术的AI搜索
...精力进行解析,能够识别出其中的文本、图表、图片等多模态内容,同时将这些图表、图片信息做了相应的检索库。此外,天工AI还构建并搭载了分钟级的信源收录系统,能够更快地收集全网高价
2024-11-05 14:56:00
文心一言发布百度市值蒸发200亿,外界称缺乏亮点,应用前景难超ChatGPT
...业。但发布仅仅是一小步,更大的挑战还在后面。具备多模态,实测后或将暴露更多问题在发布会现场,李彦宏通过提前录制的视频演示了文心一言在文学创作、商业文案创作、数理推算、中文理解
2023-03-17 10:00:00
阿里云通义大模型家族迎来新成员,通义万相已开启定向邀测
...云智能集团CTO周靖人表示,这是阿里云大模型全面掌握多模态能力的关键一步,该能力将逐步向行业客户开放。阿里云宣布AI绘画创作大模型通义万相开启定向邀测据介绍,通义万相在语义理
2023-07-07 16:55:00
...划。在中国科学院青藏高原研究所,其联合阿里云发布多模态大模型“洛书”,可高精度溯源和预测径流量,为复杂地形区的水资源管理和清洁能源开发提供精准决策支持。在中国科学院南海海洋研
2025-03-26 13:04:00
更多关于科技的资讯:
9月20日,2025太原人形机器人欢乐跑比赛在晋阳湖公园举行。这是我市第一次举办人形机器人“跑步”比赛。本次比赛,共有来自省城高校
2025-09-21 06:42:00
混成全网公敌的“流水线式造假”,终于被整顿
一家三口站在某所知名小学校门前,松弛地拍了一张合照。照片发到小红书上,下方评论区都在问询:“这么优秀的娃,究竟该怎么培养
2025-09-20 22:18:00
家庭观影进入IMAX时代!海信发布全球最大150英寸激光电视
鲁网9月19日讯9月19日,以“无界”为主题的“2025激光显示技术与产业发展大会”隆重举行。作为全球激光显示领域的领军企业
2025-09-20 08:56:00
我国脑机接口技术取得重大突破 厦门大学研究人员参与
放大镜视野下的“神经蠕虫”电极。(受访者 供图)厦门网讯(厦门日报 佘峥 通讯员 戴佩琪)我国脑机接口技术有重大突破——近日
2025-09-20 09:18:00
厦门“屏实力”再添新动能 天马发布高端OLED技术品牌“天工屏”
图为天马“天工屏”发布会现场。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹 通讯员 雷飏 李舜)随着人们日常使用手机时长持续攀升
2025-09-20 09:18:00
“赢在南京”海外人才创业大赛总决赛落幕逐鹿未来机“慧” 四海英才“论剑”南报网讯(记者余梦娇)9月19日,2025年“赢在南京”海外人才创业大赛总决赛在紫金山科技城圆满落幕
2025-09-20 09:54:00
过节送福礼,就送波尼亚!老字号中秋礼盒,青岛人都认这口
鲁网9月20日讯中秋将至,岛城的节日氛围日渐浓厚,走亲访友、阖家团聚的时刻,一份饱含心意的礼品总能传递温暖。作为扎根青岛的老字号肉食品牌
2025-09-20 10:08:00
机器人“总动员”!2025世界制造业大会上演智造奇观
大皖新闻讯 机械臂在空中划出优美弧线,人形机器人灵活抓取糖果,机器狗稳步行走在模拟街区内……2025世界制造业大会的智能机器人展区仿佛穿越至未来世界
2025-09-20 13:25:00
茶话弄九周年,这款经典单品即将迎来“家族式”升级
9月的西安,金桂飘香。2016年创立于西安的国风新中式茶饮品牌茶话弄,也将于近期启动以“桂花”为主题元素的品牌九周年庆典系列活动
2025-09-20 15:33:00
了不起的河南制造丨汉威科技:唤醒机器人“感知”世界的能力
大河网讯 2025世界制造业大会9月20日至23日在安徽省合肥市举办,大会以“智造世界·创造美好”为主题,举办开幕式暨主旨演讲
2025-09-20 16:14:00
了不起的河南制造丨2025世界制造业大会举行,河南“工业机器人”现场秀签名
大河网讯 9月20日,2025世界制造业大会开幕式暨主旨演讲在合肥市举行。河南省作为主宾省参会,30家制造业企业“重装上阵”
2025-09-20 16:45:00
2026届校园招聘大战启幕 科技企业派机器狗进高校抢人
近期,2026届校园招聘在全国多所高校陆续启动,一场围绕科技人才的“抢人大战”正式拉开帷幕。与往年相比,今年众多科技企业积极创新招聘形式
2025-09-20 17:55:00
2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度盛大启幕
鲁网9月20日讯(记者 潘亚妮 实习记者 刘悦 通讯员 袁嘉利 位一凡)9月20日,2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度市美妆在线新经济产业园盛大启幕
2025-09-20 17:55:00
从“炕头经济”到“美丽经济” ,平度睫毛产业数字化蝶变升级
齐鲁晚报•齐鲁壹点 刘震 通讯员 袁嘉利 位一凡9月20日,2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度市开幕
2025-09-20 18:05:00
了不起的河南制造丨恒达智控:AI赋能,让煤矿开采更“聪明”
大河网讯 2025世界制造业大会9月20日至23日在安徽省合肥市举办,30家河南制造业龙头企业在河南主宾展区亮相,覆盖工程机械
2025-09-20 18:17:00