我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

类别：科技发布时间：2024-12-05 09:45:00 来源：量子位

多模态检索增强生成（mRAG）也有o1思考推理那味儿了！

阿里通义实验室新研究推出自适应规划的多模态检索智能体。

名叫OmniSearch，它能模拟人类解决问题的思维方式，将复杂问题逐步拆解进行智能检索规划。

随便上传一张图，询问任何问题，OmniSearch都会进行一段“思考过程”，不仅会将复杂问题拆解检索，而且会根据当前检索结果和问题情境动态调整下一步检索策略。

相比传统mRAG受制于其静态的检索策略，这种设计不仅提高了检索效率，也显著增强了模型生成内容的准确性。

为评估OmniSearch，研究团队构建了全新Dyn-VQA数据集。

在一系列基准数据集上的实验中，OmniSearch展现了显著的性能优势。特别是在处理需要多步推理、多模态知识和快速变化答案的问题时，OmniSearch相较于现有的mRAG方法表现更为优异。

目前OmniSearch在魔搭社区还有demo可玩。

动态检索规划框架，打破传统mRAG局限

传统mRAG方法遵循固定的检索流程，典型的步骤如下：

输入转化：接收多模态输入（例如图像+文本问题），将图像转化为描述性文本（例如通过image caption模型）。单一模态检索：将问题或描述性文本作为检索查询，向知识库发送单一模态检索请求（通常是文本检索）。固定生成流程：将检索到的信息与原始问题结合，交由MLLM生成答案。

OmniSearch旨在解决传统mRAG方法的以下痛点：

静态检索策略的局限：传统方法采用固定的两步检索流程，无法根据问题和检索内容动态调整检索路径，导致信息获取效率低下。检索查询过载：单一检索查询往往包含了多个查询意图，反而会引入大量无关信息，干扰模型的推理过程。

为克服上述局限，OmniSearch引入了一种动态检索规划框架。

OmniSearch的核心架构包括：

规划智能体（Planning Agent）：负责对原始问题进行逐步拆解，根据每个检索步骤的反馈决定下一步的子问题及检索策略。检索器（Retriever）：执行实际的检索任务，支持图像检索、文本检索以及跨模态检索。子问题求解器（Sub-question Solver）：对检索到的信息进行总结和解答，具备高度的可扩展性，可以与不同大小的多模态大语言模型集成。迭代推理与检索（Iterative Reasoning and Retrieval）：通过递归式的检索与推理流程，逐步接近问题的最终答案。多模态特征的交互：有效处理文本、图像等多模态信息，灵活调整检索策略。反馈循环机制（Feedback Loop）：在每一步检索和推理后，反思当前的检索结果并决定下一步行动，以提高检索的精确度和有效性。

构建新数据集进行实验评估

为了更好地评估OmniSearch和其它mRAG方法的性能，研究团队构建了全新的Dyn-VQA数据集。Dyn-VQA包含1452个动态问题，涵盖了以下三种类型：

答案快速变化的问题：这类问题的背景知识不断更新，需要模型具备动态的再检索能力。例如，询问某位明星的最新电影票房，答案会随着时间的推移而发生变化。多模态知识需求的问题：问题需要同时从多模态信息（如图像、文本等）中获取知识。例如，识别一张图片中的球员，并回答他的球队图标是什么。多跳问题：问题需要多个推理步骤，要求模型在检索后进行多步推理。

这些类型的问题相比传统的VQA数据集需要更复杂的检索流程，更考验多模态检索方法对复杂检索的规划能力。

在Dyn-VQA数据集上的表现

答案更新频率：对于答案快速变化的问题，OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法，准确率提升了近88%。多模态知识需求：OmniSearch能够有效地结合图像和文本进行检索，其在需要额外视觉知识的复杂问题上的表现远超现有模型，准确率提高了35%以上。多跳推理问题：OmniSearch通过多次检索和动态规划，能够精确解决需要多步推理的问题，实验结果表明其在这类问题上的表现优于当前最先进的多模态模型，准确率提升了约35%。

在其它数据集上的表现

接近人类级别表现：

OmniSearch在大多数VQA任务上达到了接近人类水平的表现。例如，在VQAv2和A-OKVQA数据集中，OmniSearch的准确率分别达到了70.34和84.12，显著超越了传统mRAG方法。

复杂问题处理能力：

在更具挑战性的Dyn-VQA数据集上，OmniSearch通过多步检索策略显著提升了模型的表现，达到了50.03的F1-Recall评分，相比基于GPT-4V的传统两步检索方法提升了近14分。

模块化能力与可扩展性

OmniSearch可以灵活集成不同规模和类型的多模态大语言模型（MLLM）作为子问题求解器。

无论是开源模型（如Qwen-VL-Chat）还是闭源模型（如GPT-4V），OmniSearch都能通过动态规划与这些模型协作完成复杂问题的解决。

它的模块化设计允许根据任务需求选择最合适的模型，甚至在不同阶段调用不同大小的MLLM，以在性能和计算成本之间实现灵活平衡。

下面是OmniSearch和不同模型配合的实验结果：

Paper：https://arxiv.org/abs/2411.02937Github：https://github.com/Alibaba-NLP/OmniSearchModelScope Demo: https://modelscope.cn/studios/iic/OmniSearch/summary?header=default&fullWidth=false

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-05 12:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模态,拆解,阿里,检索,过程,智能的资讯：

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地

...大模型以及丰富第三方模型（如Llama、百川等）。支持多模态模型服务，提供灵活高效易用的模型API与SDK。提供文本生成、图片生成、视觉理解、视频生成、语音识别以及语音合成能

2024-09-23 09:53:00

AI搜索引擎如何重塑信息获取方式？

...还能理解和索引视频、图片、语音等多样化内容。这种多模态的处理能力，使得AI搜索能够从更广泛的数据源中提取信息，为用户提供更丰富和准确的搜索结果。同时，AI也重塑了搜索的产品形

2024-11-16 11:04:00

中国科学院地化所发布国际首个月球专业大模型，基于通义大模型及

...地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”（简称“月球专业大模型”）。该大模型以视觉、多模态及自然语言等通义系列模型为基模，结合RAG检索增强等技术，

2024-08-29 15:42:00

WAIC 2025盛大开幕:WISHEE以多模型交响乐团重塑

...并导航，耳机设置，音乐播放全部能脱离手机完成。2.多模态交互：开口即得的无缝体验无需唤醒词，无需连接手机，按住耳机向AI朋友随时开启“语音对话”3.声学黑科技：听见未来的声音

2025-07-29 12:30:00

全球顶尖人工智能科学家加盟阿里AI To C业务布局再提速

...出任阿里集团副总裁，向吴嘉汇报，负责AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。近期

2025-02-08 18:48:00

昆仑万维重磅发布天工AI高级搜索功能，做最懂金融投资、科研学

...精力进行解析，能够识别出其中的文本、图表、图片等多模态内容，同时将这些图表、图片信息做了相应的检索库。此外，天工AI还构建并搭载了分钟级的信源收录系统，能够更快地收集全网高价

2024-11-05 14:56:00

文心一言发布百度市值蒸发200亿，外界称缺乏亮点，应用前景难

...业。但发布仅仅是一小步，更大的挑战还在后面。具备多模态，实测后或将暴露更多问题在发布会现场，李彦宏通过提前录制的视频演示了文心一言在文学创作、商业文案创作、数理推算、中文理解

2023-03-17 10:00:00

阿里云通义大模型家族迎来新成员，通义万相已开启定向邀测

...云智能集团CTO周靖人表示，这是阿里云大模型全面掌握多模态能力的关键一步，该能力将逐步向行业客户开放。阿里云宣布AI绘画创作大模型通义万相开启定向邀测据介绍，通义万相在语义理

2023-07-07 16:55:00

阿里云重磅升级全栈AI体系，一文看懂云栖大会技术发布

...模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会，阿里云CTO周靖人发布多项重磅技术更新在大语言模型中

2025-09-24 13:30:00

更多关于科技的资讯：

金湖农商银行办理首笔不动产在线抵押业务

江南时报讯近日，金湖农商银行与金湖县自然资源和规划局深化合作，通过展业平台成功办理淮安地区不动产在线抵押业务。金湖农商银行龙港支行作为首家试点单位

2026-02-25 22:30:00

全球设计视野：胡予彤女士的国际影响力

在这个品牌必须跨越国界与受众自如对话的时代，胡予彤女士（Ms. Hu）已不仅是一名设计师，更是一股备受瞩目的创意力量，其作品的辨识度已从纽约延伸至广阔的国际舞台

2026-02-25 20:01:00

助力中国硅光通信产业高质量发展，引领产业协同与技术突破

在算力需求爆发式增长的数字时代，硅光通信技术正成为数据中心互联的关键基石。作为测试测量领域的资深专家，Kevin Pan凭借其前瞻性的产业布局和卓越领导力

2026-02-25 17:40:00

福建6家医疗器械企业8个项目入围国家级“揭榜挂帅”

中国消费者报福州讯（记者张文章）2月24日，记者从福建省药监局获悉，近日，工业和信息化部、国家药监局联合发布了《关于公布生物医用材料创新任务揭榜挂帅（第二批）入围揭榜单位的通知》

2026-02-25 18:00:00

数字经济时代，企业如何抢占数据资产价值先机

数字经济浪潮下，数据资产化已从政策导向转向价值兑现的关键阶段，成为企业抢占未来的核心竞争力。但面对国家政策红利与市场巨大机遇

2026-02-25 18:14:00

硬核数据勾勒假期出游新图景浙江文旅市场红红火火活力足

据浙江文旅，2026年春节假期，浙江省累计接待全域游客4604.3万人次，同比增长24.7%。全域旅游综合收入679.5亿元

2026-02-25 19:28:00

河北日报贺新春｜AI河北新春创意系列海报：燕赵古韵，冀遇新机

作者：邝英武

2026-02-25 17:15:00

百亿ED市场转向：从价格战到价值战的底层逻辑

在中国医药市场的细分赛道中，抗ED药物领域正经历一场静默而深刻的变革。市场规模突破90亿元，年增长率保持在近20%的高位

2026-02-25 17:05:00

浙江长兴：服务暖人心提质促共赢

长兴县烟草专卖局秉持“服务暖人心、提质促共赢”理念，以零售户服务需求为核心，通过“定制化服务+纠纷化解赋能”双轮驱动，聚焦卷烟经营全链条服务痛点难点

2026-02-25 17:06:00

从流量到认知资产：品牌增长顾问贺大亿的商业观察

过去几年，中国消费市场正在经历一轮明显变化。一方面，流量成本持续上升，单纯依赖推广带动销量越来越难；另一方面，大量新品牌快速出现

2026-02-25 16:30:00

【新春走基层】春节长假与多种促消费政策叠加汇川区消费市场活

多彩贵州网讯今年春节，长达九天假期与政府消费券的不期而遇，为汇川区消费市场注入了强劲动力。连日来，笔者走访遵义国贸春天百货购物中心

2026-02-25 16:53:00

方程豹钛7，城区智能辅助驾驶实测来了

视频制作：陈希河北新闻网讯（记者王嵩）方程豹钛7作为一款兼具颜值与性能的方盒子，其智能辅助驾驶系统以及云辇C+路面预瞄技术表现如何呢？本期视频，我们将通过一场28公里的实测一

2026-02-25 15:43:00

最高免首月房租！我爱我家相寓推出“返工季”租房优惠活动

2月25日（正月初九），正值返工返岗高峰期，大量新市民、青年人陆续返程就业，租房需求集中释放。为积极响应各地返工季惠民租房号召

2026-02-25 12:09:00

春节新茶饮观察：书亦烧仙草乡镇店日均杯量1000杯，家庭聚会

春节假期历来是观察新消费趋势的重要窗口。近日,书亦烧仙草对外公布新春假期战报:平均每天售出招牌烧仙草26万杯、水果奶绿25万杯

2026-02-25 11:06:00

从“渠道战”到“心智战”：白酒春节营销背后的竞争新格局

春节作为国人最重要的传统节日，历来是白酒行业消费与品牌竞争的关键节点。从早期依靠渠道铺货和价格竞争，到如今注重文化内涵与情感联结

2026-02-25 11:06:00

头条订阅服务

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解