• 我的订阅
  • 科技

智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

类别:科技 发布时间:2024-12-11 09:53:00 来源:机器之心Pro
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

随着 ChatGPT 掀起的 AI 浪潮进入第三年,人工智能体(AI Agent)作为大语言模型(LLM)落地应用的关键载体,正受到学术界和产业界的持续关注。实际上,早在 5-6 年前,预训练技术就已经在许多实际任务中取得了显著成果。但 AI Agent 之所以在当下备受瞩目,更多地源于其在自动解决复杂任务方面展现出的巨大潜力,而这种潜力的核心基石正是智能体的复杂推理能力。

与当下广受关注的 OpenAI-o1 及其追随者略有不同,大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类:虽然不是每个人都需要具备获得 IMO 金牌的数学素养,但在具体场景下利用特定知识和工具完成复杂任务(例如使用搜索引擎、处理私有文档等)的能力却是不可或缺的。这一特点也意味着 AI Agent 的开发者们需要一套既通用又高效的 Agent 构建方法论。

更具挑战性的是,作为面向实际应用的产品,AI Agent 在部署后还需要能够随着应用场景的演进和用户需求的变化而不断更新优化。这些实际问题都表明,构建一个真正实用的 AI Agent 绝非简单的提示工程(Prompt Engineering)或模型微调(Fine-tuning)所能解决,而是需要更系统化的方法。

在 NeurIPS 2024 上,来自清华大学和蚂蚁集团的研究者针对人工智能体构建方法的通用性和适应性提出了一个新方案。这个被命名为AMOR(Adaptable MOdulaR knowledge agent)的系统,不仅能低成本地调用专业工具和知识库,更重要的是,它能像人类一样持续学习和成长。

智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

论文标题:AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback 论文地址:https://arxiv.org/abs/2402.01469 作者主页:https://jianguanthu.github.io/

AI Agent 的「三大短板」:为什么它们还不够「聪明」?

想让 AI Agent 真正胜任助手角色,仅有海量知识是远远不够的。研究团队通过深入分析发现,当前 AI Agent 普遍存在三大短板:

黑盒思维」:与优秀人类助手能清晰展示解题思路不同,AI Agent 的推理过程往往是个黑箱,我们根本无从得知它是如何得出结论的。 固步自封」:AI Agent 就像被困在训练时刻的「永恒现在」,无法像人类那样与时俱进,持续获取新能力、更新认知。 粗放纠错」:当 AI Agent 犯错时,我们只能笼统地说「答案不对」,而无法像指导学生那样,精确指出「这一步推理有问题」。

更令人困扰的是,目前业界主流方案都未能同时解决这三大难题。作者对比了当前最具代表性的 AI Agent 框架,它们要么推理过程不可控,要么知识固化,要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。

智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

AMOR 和已有构建智能体的代表性方法的比较

AMOR:基于有限状态机的模块化推理方案

如何让 AI Agent 既能像专家一样严谨思考,又能像学徒一样持续成长?AMOR 框架给出了一个优雅的答案:将复杂的 AI 推理过程拆解成可控的「专家模块」,通过有限状态机(FSM)编排它们的协作规则,就像精密的齿轮系统一样,每个部件都完美啮合。

智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

AMOR 的状态转移图

这种设计带来三大关键优势:

1. 结构化推理框架

FSM 使得定义步骤间的依赖关系(例如,执行顺序、分支选择)非常方便,因此能够容易地对错误的路径进行剪枝,从而缩小探索空间,也有潜力更高效地构建类 OpenAI-O1 的长推理链。

2. 「双阶段」训练策略

通过将复杂任务解耦为独立模块,AMOR 能够独立训练每个模块,从而可以充分利用开源数据集。具体而言,AMOR 采用「预热 + 适应」两阶段训练模式:

快速起步 - 预热阶段:就像新员工入职培训,AMOR 通过在 5 万个自动构建的样本上训练掌握基础技能。这些样本被巧妙地分解到各个模块,使得即便是开源语言模型也能快速达到专业水准。 持续进化 - 适应阶段:像经验丰富的职场人一样,AMOR 在实际工作中不断成长。每解决一个问题,它就能积累一分经验,逐步适应特定领域的专业需求。

3. 过程反馈机制

传统 AI 训练就像只告诉学生「考试及格 / 不及格」,而不指出具体错在哪里。这种粗糙的反馈机制常常导致 AI 像「黑盒」一样难以诊断问题,训练效果事倍功半。而 AMOR 引入「过程反馈」机制,在适应训练阶段中,其结构化的推理过程使用户能够轻松诊断智能体的错误,并提供过程反馈以提高智能体的推理能力。

4. 框架通用性

AMOR 框架的设计充分考虑了通用性和可扩展性。虽然论文主要以文本知识库为例进行验证,但其基于 FSM 的模块化设计天然支持多种应用场景的迁移和扩展:

知识类型扩展:通过定制 FSM 框架内的模块和依赖关系,AMOR 可以灵活支持不同类型的知识库,如结构化数据库、多模态知识等。 任务类型扩展:除了问答任务外,通过重新设计状态转移图,AMOR 还可以支持其他知识密集型任务,如文档摘要、知识推理等。 工具集成扩展:得益于模块化设计,AMOR 可以方便地集成各类专业工具。只需将新工具封装为对应的工具模块,并在 FSM 中定义其调用规则即可。

这种可扩展的架构设计使得 AMOR 不仅能够解决当前的知识推理任务,更为未来接入新的知识源、任务类型和工具能力预留了充足的扩展空间。正如论文所述,AMOR 提供了一个构建知识智能体的通用框架,其核心思想是基于 FSM 的推理逻辑和过程反馈机制,这使得它能够适应各种不同的应用场景需求。

AMOR 实现:模型结构和训练过程

AMOR 采用了一种巧妙的「专家混合」架构(Module-Aware Mixture-of-Experts,简称 MA-MoE)。这种设计灵感来自人类的专业分工:就像一个人可以是优秀的医生,同时在其他领域保持基本能力。具体来说,MA-MoE 为每个功能模块配备了独特的 FFN 参数,并用原始模型的 FFN 参数进行初始化。这就像是在 AI 的「大脑」中划分了专门的「思维区域」。

在预热阶段,AMOR 用标准的 MLE Loss 在 5 万个样本上对 MA-MoE 进行微调。 在适应阶段,AMOR 的训练过程分为三个关键步骤:探索、反馈和利用

智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

探索(Exploration):就像学徒需要亲自动手实践,AMOR 会直接处理用户的实际问题。在这个过程中,AMOR 在知识库中搜索相关信息,进行思考和推理,并推断答案。 反馈(Feedback Collection):这个阶段就像师傅在旁边观察学徒的工作,并给出具体指导,可以直接说「对」或「错」,也可以具体指出正确答案,并且 AMOR 的每个推理步骤都能得到反馈。 利用(Exploitation):每处理一定数量的问题后,AMOR 会根据收集到的反馈进行「复盘」,使用 KTO Loss 将 MA-MoE 和人类偏好对齐。和预热阶段类似,AMOR 的每个模块在优化时只调整自己的「专业参数」。

AMOR 实验:成本更低,效果更好

在 HotpotQA(百科知识问答)、PubMedQA(医学文献问答)和 QASPER(论文长文本问答)三个基准测试中,AMOR 展现出优秀的性能:

AMOR 的 FSM 框架让 AI 的推理过程更加清晰可控,比传统方法提升 30%~40%; 通过在多个开源数据集上预热,AMOR 甚至超越了用 GPT-4 生成训练数据的智能体; 使用过程反馈比结果反馈进行适应更高效:仅需 800 次互动就能达到稳定效果,并且证据收集能力和推理正确率显著提升。

智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

AMOR 及基线方法在微调或不微调时的实验结果

实例展示

下图比较了 AMOR 和传统的 ReAct 框架(基于 GPT-3.5)分别回答同一问题的推理过程:

智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

AMOR(上)和 ReAct(下)回答同一输入问题的样例

如图所示,没有明确推理逻辑约束的 ReAct 未能成功分解问题,并在「Thought/Action 5」 中过早地终止检索。此外,ReAct 在「Thought 2/4/5」中也混合了正确和错误的步骤,这使得用户难以针对性地批评和改进智能体。相比之下,AMOR 则如同经验丰富的专家,每一步推理都清晰可控,不仅能准确找到答案,还能接受精确的过程指导,持续提升自己的能力。

成本分析

在 AI 领域,性能提升往往意味着更高的成本。然而,如下图所示,AMOR 打破了这个「魔咒」。

智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

不同智能体的平均步骤数 /token 数对比

为什么 AMOR 如此高效?想象一个团队会议:传统方法(如 ReAct)像是每个人发言都要重复之前所有人说过的话;AMOR 则像是精心设计的会议流程:每个环节只传递必要信息。按照目前 API 调用成本计算,使用 GPT-4o 处理 1 万个问题,AMOR 比 ReAct 节省数百美元;当使用开源模型时,成本可以进一步降低 90% 以上。这意味着 AMOR 不仅在性能上领先,在商业落地时也具有显著的成本优势。尤其适合大规模文档处理、客服智能问答、专业领域咨询等高频场景的应用。

本文介绍了 AMOR—— 一个为知识密集型任务设计的模块化智能体框架。它通过 FSM 推理系统和过程反馈机制,让 AI 展现出前所未有的推理能力和学习潜力。AMOR 的成功为 AI 助手的发展开辟了新路径。作者表示,接下来,他们将拓展到更多知识类型(如结构化知识库)、探索更广泛的应用场景、研究 AI 自主设计推理逻辑的可能性。这些工作预示着我们正在接近真正的「AI 专家」:既有清晰的推理能力,又能在实践中持续成长。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-11 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

山里山外贵州人丨“航天人”樊太春:二十一年“镀”一剑
...句车间的宣传标语,樊太春下定决心,一定要留下来。 怎么办?樊太春较起了真,硬着头皮重头学起。于是,他白天跟着师傅学实操,晚上就反复钻研电镀工艺。他肯吃苦,勤学好问,总是缠着
2025-06-10 01:14:00
...础的讲课内容是不够的,“小朋友在上课过程中尿裤子了怎么办?”“有人哭了怎么办?”“该如何奖励小朋友?”这些问题在开讲之前,孩子们也都一一向幼儿园老师请教,做好充分准备。
2025-06-02 06:59:00
5年投资超1000亿,北京公布一系列AI重磅成果,北大清华百度蚂蚁微软大佬齐谈AI未来|钛媒体AGI
...京大学教授、中国科学院院士鄂维南;中国工程院院士、清华大学信息科学技术学院院长戴琼海;百度CTO王海峰;蚂蚁集团CTO何征宇;微软全球资深副总裁、Microsoft AI亚太
2024-04-28 11:00:00
...多模态生成式大模型与应用产品开发。团队成员主要来自清华大学人工智能研究院,前瑞莱智慧副总裁唐家渝出任首席执行官。热潮席卷半年以来,大模型赛道的竞争壁垒变与不变共存。唐家渝认为
2023-06-19 09:03:00
平生与最后,不过一呼一吸间,要时刻当作最后来看
...行也不再容易。毕竟世间无常,万一在睡梦中离开,那该怎么办呢?难道要达到梦寐一如,那这真是难行中的难行啊!醒着的时候,勉强能记得,睡着的时候,还能继续,这就不是凡人了。我们习惯
2023-06-14 23:20:00
可帮金融机构节省90%生产时长,蚂蚁财富“三大专业AI助手”亮相外滩大会
...,但目前使用深度还不够,需要更多专业AI应用的破局。清华大学五道口金融学院的最新调研显示,7成机构投资研究用户在使用AI工具,其中近64%为偶尔使用,深度使用AI工具的比例仅
2025-09-12 15:44:00
衡水中学、复旦附中…国内9所顶尖高中成立“C9共同体”,网友吵开了
...这样的C9共同体:冷漠无情小哑巴 : 所以偏远地区的孩子怎么办柠檬凤爪主推官 : 不是吧?高中就开始卷了啊小Lin努力高冷 : 教育资源愈发不平衡,菜的学校只会更菜,好的只会
2023-03-15 11:32:00
第三届ATEC科技精英赛结果出炉,蚂蚁联合清华等17所高校举办
...能学会指导,ATEC前沿科技探索社区发起,蚂蚁集团联合清华大学、上海交通大学、浙江大学、西安交通大学等17所知名高校共同承办,60多位学界专家联合评审的第三届ATEC科技精英
2023-09-01 16:47:00
...菇的名字是什么?有毒吗?”“这是什么蛇?户外遇到它怎么办”……当户外运动者等用户在深山等网络极端条件下遇到类似问题时,通过MiniCPM 就能获得解答,它像其他大模型一样具备
2024-02-04 05:41:00
更多关于科技的资讯:
河北日报讯(张晓超、李娜)11月19日,辛集市教育北路高架桥上空,一架搭载高清摄像头与专业传感器的无人机缓缓升空,按照预设航线开展桥梁日常检测
2025-12-05 14:56:00
烟台南山学院斩获省部级科技奖荣誉
近日,2025年度中国纺织工业联合会科学技术奖励大会在北京人民大会堂隆重召开。烟台南山学院“针织经编一体成型3D智能织造关键技术及应用”项目斩获“技术发明奖二等奖”
2025-12-05 15:00:00
盐城盐都:“芯”智散热赋能 科创驱动前行
江南时报讯 以科创破局散热赛道,以匠心赋能产业升级。乘着聚焦“3+3”产业体系、培育新兴产业的发展浪潮,盐城市盐都区已在第三代半导体多个细分领域形成显著集聚优势
2025-12-05 15:07:00
中新建电力集团发电产业:智慧电厂新蓝图
近日,中新建电力集团天河热电分公司与上海电气集团举行了一场关键的技术交流会。会议聚焦于天河热电的智慧化升级,上海电气团队在会上系统性地展示了其先进的智慧电厂整体架构规划
2025-12-05 15:09:00
日前,建行河北省分行2025年“人工智能+”劳动技能竞赛顺利结束。全省共有111支队伍选送90项作品参加初赛,经过严格的初审选拔
2025-12-05 15:09:00
全国首台套!助力煤矸石全量高值转化
12月1日,由中能建装配式建筑产业发展有限公司投资建设运营的山西大同千万吨级煤矸石综合利用新技术示范项目陶粒中试线成功建成投运
2025-12-05 15:10:00
如何“反内卷”?54.5%职场人将“优化薪酬激励机制”列为首选
什么是“好工作”?工作有哪些特质会让员工有“好”感受?日前,智联招聘通过问卷调研的方式,对平台用户展开调研,回收3525份有效样本
2025-12-05 15:26:00
国航举办“国航+”生态主题发布会
海外网北京12月5日电(记者严冰)12月5日,中国国际航空股份有限公司(以下简称“国航”)在北京举办“云端无界 凤启耀星河——‘国航+’生态主题发布会”
2025-12-05 15:33:00
乐购房山│实惠购—荟品仓城市奥莱北京首店盛大开业!
12月5日,国内仓储式品牌特卖开创者荟品仓,在房山区瑞来广场盛大开业,带来北京首家城市奥莱门店。近1万平方米超大空间、300+全球知名品牌及1-3折极致折扣
2025-12-05 15:55:00
易生支付“智慧分账”赋能安心鲜生 驱动社区零售全国布局
在社区零售数字化转型加速深化的背景下,易生支付与“社区新零售”新兴企业陕西安心鲜生正式达成合作。依托易生支付的深厚技术积淀与成熟系统能力
2025-12-05 16:09:00
ED用药怎么选?金钢鸟领衔西地那非口崩片品牌阵营,购买渠道全解析
第91届全国药交会上,金鸿药业金钢鸟枸橼酸西地那非口崩片的亮相,让“枸橼酸西地那非品牌选择”“哪里有售”等问题成为行业热议焦点
2025-12-05 16:09:00
苏州黄埭镇推动“产学研”深度融合
江南时报讯 日前,苏州冠鸿智能装备有限公司与中南大学计算机学院“跨界”合作,联合启动轮式双臂机器人研发项目,致力于推动创新成果向现实生产力加速转化
2025-12-05 16:13:00
近邻碰碰:以 “邻里经济”打造智慧社区消费新生态 —— 专访小门神传媒科技集团董事长付信中
鲁网12月4日讯“远亲不如近邻”,这句家喻户晓的俗语,如今被小门神传媒科技集团董事长付信中赋予了全新的商业内涵。由其集团研发推出的近邻碰碰 AI 智慧惠民设备
2025-12-05 16:47:00
今年双十一,A4纸大小的巨型吊牌成为女装电商的“标配”。这种硬材质、高存在感的“防白嫖神器”,在社交平台引发热议,同时也揭露了线上服装行业的信任危机
2025-12-05 17:00:00
龙岩联通“5G+AI+无人机”项目荣获第八届“绽放杯”5G应用征集大赛全国优秀奖
东南网龙岩12月5日讯(通讯员 曹可煊)近日,第八届“绽放杯”5G应用征集大赛全国赛圆满落幕。龙岩联通为华电连城风电打造的“智驭低空——构建‘5G+AI+无人机’绿电智能运维新范式”项目
2025-12-05 17:16:00