• 我的订阅
  • 科技

RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

类别:科技 发布时间:2024-11-22 09:54:00 来源:新智元

RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

【新智元导读】论文提出了一种RAG任务分类法,将用户查询分为四个级别,并讨论了将外部数据集成到LLMs中的三种主要方式。从简单的事实检索到复杂的推理任务,每个级别都有其独特的难点和解决方案,需要不同的技术和方法来优化性能。

受参数量和知识更新的限制,大模型在执行很多真实场景下的任务时,都需要连接外部数据源,检索增强生成(RAG)技术也逐渐获得业内的关注。

但并不是接入外部数据即可万事大吉,有很多用户查询非常难处理,从检索相关数据、准确解释用户意图,再到充分利用LLMs的推理能力都需要进行优化处理,才能得到一个相对满意的RAG系统来执行复杂任务,并不存在一种万能的解决方案。

在实践中,如果RAG效果不佳,通常是由于未能准确识别任务的核心问题,或者是因为该任务本身就需要混合多种技术才能解决,必须将复杂任务拆解开才能获得更好的表现。

最近,最新的RAG综述根据「所需的外部数据类型」和「任务的主要焦点」将用户查询分为四个级别:显式事实查询、隐式事实查询、可解释理由查询和隐含理由查询,并在文中对四个难度的问题进行定义,提供相关数据集,总结关键难点以及能有效解决该难点的技术。

RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

论文链接:https://arxiv.org/abs/2409.14924

文中还讨论了将外部数据集成到LLMs中的三种主要形式:上下文、小模型和微调,分析各自的优势、局限性以及适合解决的问题类型。

RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

级别1:显式事实查询(explicit fact queries)

例:2024年夏季奥运会将在何处举行?

Where will the 2024 Summer Olympics be held?

这类查询是最简单的形式,不需要额外的推理,主要考察模型定位和提取相关信息的能力,要求模型正确检索数据以提供准确的回复。

常见的问题形式包括:

1. 给定一系列学术论文:在论文X中使用了什么方法来解决Y问题?(What method was used in Paper X to solve problem Y?)

2. 给定一系列关于公司X的最新新闻和文章:公司X的人工智能战略是什么?(What’s the AI strategy of company X?)

RAG主要难点

1. 数据处理困难:外部数据通常是高度非结构化的,包含表格、图像、视频等多种模态,将数据进行分段(segmenting)或分块(chunking)处理时,仍然需要保持原始上下文和意义。

2. 数据检索困难:从大型非结构化数据集中检索相关数据段可能会耗费大量计算资源,并且容易出错,主要难点在于开发出高效准确的检索机制。

3. 评估困难:如果评估RAG系统的性能,特别是组件级别的性能,是一项复杂的任务,需要开发出能够准确评估数据检索和响应生成质量的指标。

由于RAG已经算是一个相对成熟的领域,目前已经有大量的文献和工具来应对上述难题,文中介绍了一些实用和有影响力的RAG增强功能,以及可能在RAG之外采用的替代技术解决方案。

级别二:隐式事实查询(implicit fact queries)

例:堪培拉所在的国家现在哪个党派占多数?

What is the majority party now in the country where Canberra is located?

解析:堪培拉位于澳大利亚,再检索澳大利亚的多数党。

查询仍然围绕事实性问题,但答案并没有明确地出现在任何某一个文本段落中,而是需要通过常识推理、结合多个事实来得出结论,所需的信息可能分散在多个段落中。

主要难点

1. 适应性检索量(Adaptive retrieval volumes):不同的问题可能需要检索不同数量的上下文,具体检索量可能取决于问题和数据集,固定数量的检索可能会导致信息噪声或信息不足。

2. 推理与检索之间的协调(Coordination between reasoning and retrieval):推理可以指导需要检索的内容,而从检索中获得的信息可以迭代地完善推理策略。

解决这些难点需要智能地整合和有选择性地利用外部数据,利用上大模型固有的推理能力,现有的解决思路包括迭代RAG、基于图/树的RAG以及带有SQL的RAG等。

级别三:可解释理由查询(interpretable rationale queries)

例:

1. 给定胸痛管理指南,如何诊断和治疗有胸痛和特定症状描述的患者?

How should a patient with chest pain and specific symptom descriptions be diagnosed and treated?

2. 给定客户服务工作流程,在现实生活场景中,如何回应用户的问题?

How to respond to a user’s question in a real-life scenario?

这类查询不仅要求模型掌握事实内容,还需要能够理解并应用与数据上下文密切相关的特定领域的理由,并且理由通常在外部资源中明确提供,且在一般大型语言模型的预训练阶段通常不存在或很少遇到。

例如,在制药领域,LLM必须解释FDA指南文件,以评估特定药物申请是否符合监管要求;在客户支持场景中,LLM必须导航预定义工作流程的复杂性,以有效处理用户查询;在医疗领域,模型需要遵循诊断手册,其中提供了权威和标准化的诊断标准,如管理急性胸痛患者的指南,通过有效遵循外部理由,可以开发出一个专门的LLM专家系统来管理胸痛。

上述过程涉及到理解程序步骤和决策树,指导支持智能体与客户的互动,确保回复不仅准确,而且符合公司的服务标准和协议。

RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

研究人员根据所涉及理由的性质,将这些查询分为两类:基于可解释理由的查询和基于隐含理由的查询。

第一类查询通常更显式,辅助数据通常包括用于解决问题的思维过程的清晰解释,数据可以以多种形式进行组织:

1. 纯文本,包括专业或官方文件,如手册或指南,以及特定领域的手册或操作指南,阐述了在复杂场景中促进决策的思维过程。如FDA针对制药厂的指南或医生的药物指南提供了专家(如FDA官员或医生)如何处理特定案例的见解。

2. 结构化指导,包括更明确的推理关系或决策路径,可以表示为文本条件摩尔机或文本条件米利机。在计算理论中,摩尔机是一种有限状态机,其输出值仅由其当前状态决定,控制状态转换的条件通常以文本形式表达,与传统程序操作本地代码不同的是,大模型需要解释条件和转换理由。

主要难点

1. 提示优化成本,不同的查询需要量身定制的背景知识和决策标准,需要多样化的样例,如果是训练一个额外的模型为各种查询生成定制的提示,会显著增加计算开销。

2. 可解释性不足,提示对LLMs的影响是不透明的,限制了对LLMs内部参数的访问,使得确定各种提示对这些模型的影响变得复杂。这种缺乏透明度阻碍了我们一致理解和验证LLM对不同提示回复的可解释能力。

级别四:隐式理由查询(Hidden Rationale Queries)

例:

1. 经济形势将如何影响公司未来的发展?(给定一系列财务报告,需要经济和财务理由)

2. 如何使用数字5、5、5和1达到24点?(给定一系列24点游戏示例和相应的答案)

3. 阿富汗是否允许父母将他的或她的公民身份传给在国外出生的孩子?(给定GLOBALCIT公民法数据集)

隐式理由查询是最难处理的类型,涉及特定领域的推理方法,且数量众多,无法穷尽,并且理由通常无法在上下文窗口内完全探索,隐含的领域专业知识包括但不限于:

1. 领域内数据,如历史问答记录或人工生成的数据,包含了解决当前查询所需的推理技能或方法论。例如,在Python编程谜题的背景下,历史问题的解决方案通常包括可以帮助解决当前问题的古典算法和解决问题的策略。

2. 预备知识,可能包含一个全面的公理系统,如构成法律判断基础的所有地方法律代码,或是包括简化数学证明等领域推理过程的经过验证的中间结论。在使用外部数据解决现实世界问题时,这种先验知识也可能来自于复杂的人类经验和经验总结的积累。

主要难点

1. 逻辑检索:对于涉及隐藏理由的问题,外部数据的有用性不仅仅取决于实体级或语义相似性,而是取决于逻辑一致性或主题对齐。

标准检索方法通常难以捕捉查询的真正目标或识别基于呈现的问题的具有逻辑相似性的文本段落,需要开发出更复杂的检索算法,以解析和识别潜在的逻辑结构,而不仅仅依赖于表面的文本相似性。

2. 数据不足:从根本上说,外部数据可能没有明确包含与当前查询相关的指导或答,通常要求模型具有强大的数据解释和分析能力,能够有效地从碎片化或相关性不大的数据源中得出连贯的答案。

参考资料:

https://arxiv.org/abs/2409.14924

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-22 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软正在申请“舌头姿势”交互解决方案
...与头显相关的专利,该专利重点介绍了“舌头姿势”交互解决方案。微软在专利申请中表示,他们设想了一个使用“舌头姿势”的控制系统或应用程序,并且还可以通过“舌头姿势”在虚拟键盘上进
2024-04-02 11:59:00
格灵深瞳发布“深瞳阿瞳目”,体育课离AI越来越近
...教室、日常训练、云上运动会六大场景。格灵深瞳将整套解决方案取名为“深瞳阿瞳目”,并表示将致力于构建科学的体育运动场景,打造智慧化校园体育解决方案。而“深瞳阿瞳目”这个名字难免
2023-06-07 12:00:00
大力牛魔王D08:智能驾驶助力高效配送,解锁城配物流新姿势
...的数字不仅令人忧心,也揭示了行业急需一种更加安全的解决方案。正是在这样的背景下,大力牛魔王D08应运而生,以其领先同级的智能科技为城配物流人提供了一个更加安全、高效、智能的运
2024-04-24 12:35:00
大型集团数字化现状洞察,三步解决组织分级分权管理难题|身份云研究院
...信创政策的加持下,中国企业在数字化转型中使用本地化解决方案代替原有的外企套装软件的情况正在加速。同时以 OpenAI 为主导的人工智能领域的突破,种种因素给企业数字化转型到来
2023-05-11 19:00:00
身影渐远 2G离场需要正确姿势
...域仍然依赖2G网络进行通信。”一位业内人士说。“具体数据我并不清楚,不过可以参考相关数据。”电信行业独立分析师付亮对《中国消费者报》记者说,“工业和信息化部发布的《2022年
2023-12-22 15:19:00
索尼专利提出基于Avatar私人健身指导的AR健身解决方案
(映维网Nweon 2023年03月17日)由于时间或金钱等各种原因,有人会选择在家锻炼,而不是前往健身房。实际上,基于沉浸式现实的AR/VR健身正在逐渐普及,成为大家寓“健”于
2023-03-17 12:00:00
全国首创寒假AI体育作业方案!成就信息化教学先锋
...用功能:监督学生锻炼、与学生对话互动、智能分析运动数据、给出实用建议、做出及时评价等,就像体育老师的分身一样,陪伴孩子高效完成体育锻炼任务。让学生运动不孤单,大大提高积极性!
2024-12-30 21:11:00
酸酸甜甜的蔓越莓不仅美味,对抗女性尿道感染比抗生素还有优势
...加和肠道菌群的失衡。她渴望找到一种更安全、更持久的解决方案来管理她的尿道感染。就在这时,李娜在一次与朋友的聚会上听说了蔓越莓对抗尿道感染的益处。蔓越莓——这种酸酸甜甜的小红果
2024-03-01 14:35:00
什么是ESG投资的“正确姿势”?学者:海内外投资机构合作共赢
...行减排战略?DNV挪威船级社SCPA大中国区可持续发展业务解决方案经理栗广宇分享了其公司的ESG全流程定制化服务。通过数据收集和分析,帮助企业识别风险,确定短期责任,厘清优势
2023-11-30 18:18:00
更多关于科技的资讯:
一加13T与iPhone 16 Pro正面照对比:小而美在此刻具象化了
快科技4月8日消息,今天,一加中国区总裁李杰晒出了一加13T和iPhone 16 Pro的正面对比照。李杰表示,前期和一些小屏用户交流时
2025-04-08 10:45:00
美一公司称已复活万年前灭绝恐狼:马斯克发帖围观
快科技4月8日消息,4月7日,美国一家生物技术公司Colossal Biosciences声称他们复活了约12500年前灭绝的恐狼
2025-04-08 10:45:00
国补到手1274元起!华为畅享70X活力版发布:支持北斗卫星消息 骁龙芯片
快科技4月8日消息,今日,华为畅享70X活力版上市并开启预售,提供128GB、256GB、512GB三种版本,售价分别为1499元
2025-04-08 10:45:00
RTX 5060/Ti现身发货清单:确认128bit GDDR7显存
快科技4月8日消息,NVIDIA RTX 5060 Ti和RTX 5060显卡已在NBD发货清单被发现,确认将配备GDDR7显存和128bit显存位宽
2025-04-08 10:45:00
思迈特 “双响炮” 入选信通院铸基计划,为数字化转型破局赋能
在数字化转型浪潮中,企业的每一次突破都备受瞩目。近日,思迈特软件凭借卓越的产品力和创新能力,成功入选中国信通院“铸基计划”
2025-04-08 11:00:00
亨龙智能携手新迪数字,效率提升60%,实现降本增效新跨越!
广州亨龙智能装备股份有限公司(以下简称“亨龙智能”)始创于1991年,作为中国金属连接技术领域的佼佼者,以30余载技术积淀铸就行业标杆
2025-04-08 11:00:00
生物识别支付在俄罗斯广泛普及,发展势头强劲
近期,随着技术的不断进步,生物识别支付以迅猛之势实现全国普及,成为俄罗斯金融科技领域的一大亮点。根据权威数据,2025年第一季度
2025-04-08 11:00:00
《张朝阳的物理课》解析用协变导数表达梯度和拉普拉斯算子
如何用协变导数描述标量场被梯度算子和拉普拉斯算子作用后的结果?4月6日12时,《张朝阳的物理课》第二百四十三期开播,搜狐创始人
2025-04-08 11:04:00
茶饮品牌“慕茶山”开业典礼成功举行
4月7日,茶饮品牌“慕茶山”开业典礼在广州市南沙区举行。典礼以“茶韵新生,山境入怀”为主题,融合传统茶文化与现代美学,展现了品牌对品质与创新的极致追求
2025-04-08 11:11:00
售价198万的日版库里南!丰田世极SUV新车即将亮相上海车展
快科技4月8日消息,据媒体报道,丰田世极SUV新车型将亮相4月23日开幕的2025上海车展。丰田世纪系列是日本著名的黑色高级车
2025-04-08 11:15:00
别再冤枉皮蛋了!它是“好蛋”
一说到皮蛋,大家想到的第一个标签就是——外国人眼中的“中国黑暗料理”,网上甚至还有不少外国人挑战试吃皮蛋。图源:某社交平台其实不只外国人
2025-04-08 11:15:00
12306推出宠物托运功能!毛孩子如何上高铁 保姆级攻略来了
快科技4月8日消息,今日,中国铁路宣布,高铁宠物托运服务试运行上线,在京沪高铁部分车次试点“隔离运输、人宠分开、专人看护”的高铁宠物托运服务
2025-04-08 11:15:00
新型避孕针问世:一针管两年 可自行注射
快科技4月8日消息,据报道,麻省理工学院科研团队近日取得避孕技术重大突破,成功研发出一种革命性的长效避孕注射剂。这项创新技术通过将避孕药物转化为微型晶体悬浮液
2025-04-08 11:15:00
X200 Ultra专业相机设计!vivo黄韬:蓝厂史上颜值手感最好的超大杯
快科技4月8日消息,vivo X系列春季新品发布会将于4月21日举行,将发布vivo X200 Ultra、vivo X200s等多款新品
2025-04-08 11:15:00
快科技4月8日消息,据武汉大学4月7日公众号消息,武汉大学一位名叫李展的同学,以优异的科研学术成就获得了雷军卓越奖学金
2025-04-08 11:15:00