• 我的订阅
  • 科技

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

类别:科技 发布时间:2024-11-07 09:54:00 来源:机器之心Pro

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

网络智能体旨在让一切基于网络功能的任务自动发生。比如你告诉智能体你的预算,它可以帮你预订酒店。既拥有海量常识,又能做长期规划的大语言模型(LLM),自然成为了智能体常用的基础模块。

于是上下文学习示例、任务技巧、多智能体协同、强化学习算法…… 一切适用于通用智能体的想法都抢着在大模型落地。

然而有一个问题始终横亘在LLM 和智能体之间:基于 LLM 的网络智能体的行动 / 观测空间与 LLM 训练数据的空间相去甚远。

智能体在充斥着具身行为的行动空间(如鼠标悬停、键盘组合键)和遍布前端功能强化、格式渲染的观测空间下运作,大语言模型的理解和推理能力能充分发挥作用吗?尤其是大语言模型的主要训练任务是文本补全、问答和对齐人类偏好,这一点值得思考。

来自伊利诺伊大学香槟分校和亚马逊的研究人员选择和这些问题进一步对话。他们去除了上下文示例、技巧、多智能体系统,仅仅通过行动 / 观测空间与 LLM 的训练任务对齐。他们训练的 AgentOccam 成为了零样本基于 LLM 的网络智能体新 Sota。

这正呼应了奥卡姆剃刀原则:「若无必要,勿增实体」。然而换个思考的角度,AgentOccam 的研究团队也想发问:构建通用智能体时,在铺设复杂的系统框架前,是否已经优化了行动 / 观测空间,让这些功能模块达到了最优状态?

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

论文链接:https://arxiv.org/abs/2410.13825 论文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

背景及动机

某天你刷着短视频,看中了主播手中拿着的商品。于是,你兴致勃勃地对智能助手说:「我是学生,让这个老板送我一张优惠券!」

随后,智能体申请了你的私人账号权限、后台私信商家、绘声绘色地写下「我是学生」,发送消息,一套动作无需人为干预,行云流水......一切这样的任务,再也不必动手,都有智能体代劳。

大语言模型是构建智能体的热门选择。过去,基于 LLM 的网络智能体通常专注于让智能体学会某种应用,比如构建上下文学习样本、积累任务经验与技巧、以及多智能体角色扮演等等。然而,在实际交互中,智能体的行动 / 观测空间与 LLM 的技能点不太匹配,这之间的差距却少有人研究。

于是,针对如何对齐基于 LLM 的网络智能体的观测和行动空间与其训练期间学到的功能,来自伊利诺伊大学香槟分校和亚马逊的研究人员们展开了研究。

网络智能体需要准确地从格式各异、编码脚本不一的网页中提取信息,并在网页上定义的动作(例如,鼠标滑轮滚动、点击或悬停在按钮上)中进行选择。这些网络观测和行动空间在 LLM 的预训练和后续训练数据中都较为罕见,这阻碍了 LLM 充分调动潜能,完成任务。

因此,基于不让智能体策略变得更复杂,而是让智能体与LLM 更加匹配的想法,由此构建的智能体得名 AgentOccam。

形式化与方法

该团队通过部分可观测的马尔可夫决策过程(POMDP),将网络交互过程形式化为:

在 POMDP 中,观测 o∈O 是智能体从网络环境接收到的信息,例如 HTML,以及任何指令和提示。行动 a∈A 是网络环境认可的动作指令。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

如上图所示,AgentOccam 包括三个组成部分:

首先,减少非必要的网络交互动作,让智能体的具身和琐碎互动需求达到最小; 其次,消除冗余和不相关的网页元素,并重构网页内容块,以获取更简洁但同样信息丰富的表示,从而精炼观察空间; 最后,引入两个规划动作(分支和修剪),这使得智能体能够以规划树结构自组织导航工作流,并使用相同结构过滤历史步以进行回放。

整个框架通过一套适用于所有标记语言的通用规则来格式化网页,无需依赖测试基准中的任务相关信息。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

网络智能体的行动空间规定了可以用来与网络环境交互的有效命令。

研究团队从智能体常见的失败中得出总结:想要成功完成任务,需要编辑行动空间来解决两个关键问题:第一,去除 LLM 难以理解且经常误用的无关行动;第二,当执行任务需要规划、尝试多个潜在路径时,要提高智能体的记忆和规划能力。

为此,该团队提出了对应的解决方法。第一个问题可以通过简单地移除或合并操作来解决(如上图中的步骤 1 和 2)。对于第二个问题,过去的研究通常依赖人工制定规则或任务技巧,但这些方法难以泛化。在本研究中,LLM 将自主生成计划和管理任务流程(如步骤 3 所示)。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

AgentOccam 的观测空间(提示词)包含了任务概述的通用指令、期望的输出和可用操作说明,以及关于当前任务目标、智能体过去的交互记录和最新的观察信息。

过往互动和当前观测的部分占据了最多的字符数。这主要归因于两个因素:单页面的长度和历史跨度的范围,这是AgentOccam观测空间的主要优化对象。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

网页标记语言主要用于前端加载和渲染,往往包含大量格式化字符,显得冗余且重复(如上图步骤 1 所示)。因此,此时的目标是优化这些表示方式,使得单页内容对 LLMs 更加简洁易读。

将观测历史作为输入,对于执行长程任务至关重要。因为一些关键信息可能不会显示在当前页面上。然而,观测历史也会显著增加上下文长度,并增加推理难度以及推断成本。

为了解决这个问题,设置仅选择先前网页上最重要和相关的信息,这一选择依据两个规则,分别基于关键节点和规划树,见于步骤 2 和 3。

结果

研究团队在 WebArena 上评估了 AgentOccam 性能。WebArena含有 812 项任务,横跨网购、社交网站、软件开发、在线商贸管理、地图等。

测试对象为AgentOccam 框架下的GPT-4-Turbo。对比的基线包括:一、WebArena 随配智能体,二、SteP,前 WebArena 上最优智能体,涵盖 14 条人类专为 WebArena 任务编写的技巧,三、多智能体协同方法 WebPilot;四、总结智能体交互经验的工作 AWM。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

从上表不难看出,AgentOccam 性能优于以往及同期工作。其中,AgentOccam 分别以 9.8(+29.4%)和 5.9(+15.8%)的绝对分数领先往期和同期工作,并且通过其观测与行动空间的对齐,使得相似的基本网络智能体的成功率提高了 26.6 点(+161%)。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

消融实验

逐模块对比行动与观测空间的对齐对最终结果的贡献。从下表可以看出,行动空间对齐能使智能体完成更多 click、type 等引导环境变化的动作,观测空间对齐则减少大模型调用的字符数与智能体完成任务所需的步数。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

LLM-as-a-Judge

研究团队发现,智能体的决策行为波动性很强。简而言之,面对一个目标,智能体有一定概率做出正确的行为决断,但由于 token 预测的随机性,它可能做出一些高成本、低回报的决定。这也导致它在后续步骤中难以纠正之前的错误而失败。

例如,要求智能体在某个最相关的话题下发布帖子,单次 LLM 调用的 AgentOccam 往往轻率地选择话题,未考虑「最相关」的要求。

为了解决此类问题,他们引导 AgentOccam 生成单步内所有可能的行动,这系列行动将交付另一个 Judge 智能体(同样调用 GPT-4-turbo)决断,做出最大化回报的选择。

与复合策略结合使用

复合策略中,与任务相关的经验可以提升智能体性能。同时,不因为加入了更多背景知识扰乱决策,不会影响泛化性,能够纠正错误行为模式。

由于行为 / 观测空间对齐和复合策略方法正交,因此能结合利用。该团队试验将 AgentOccam 与 1)SteP 和 2)上述的 LLM-as-a-Judge 方法联合使用。

对于和前 SOTA 方法 SteP 联合,由于它引入人类编写的 WebArena 任务攻略,在经验密集型任务,如购物网页任务中,人类撰写的引导性经验大幅提升任务成功率。

而在常识泛化密集型任务,如社交网页发帖任务中,不相关知识出现会错误扰乱智能体决策。对于 LLM-as-a-Judge 方法,Judge 角色的引入不影响智能体的泛化性,同时纠正了智能体仓促决策的错误行为模式,在 WebArena 上进一步提升 2.6 的绝对分数。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-07 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

始于安全,不止安全丨迪普科技AI基座解决方案发布
...署需求。 智能体:“预训练+微调”双阶段驱动,小样本学习能力出众 迪普科技在本次发布会推出的智能体基于DeepSeek、通义千问、百川等大模型,构建了三位一体
2025-03-13 10:45:00
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
...直持续到 2023 年 12 月,提供了长时间范围和及时的数据样本,能够进一步增强该数据集的应用价值。 构建轨迹基础模型 UniTraj在模型的架构设计上
2024-11-23 09:42:00
策略产品经理必读系列第七讲:机器学习分类任务基础评估指标AUC、召回率、准确率
...是一个连续值。分类和聚类任务最终模型的输出都是这个样本属于哪一个类别,但是回归任务是输出最终实际的数值是什么,是一个具体的数字。常见的应用场景有销量预测和智能定价。二、分类任
2023-05-06 13:00:00
科大讯飞申请对话模型训练等专利,提升多轮对话的生成质量
...设备及介质,涉及人机交互技术领域,该方法包括:根据样本对话中的当前样本用户输入信息和历史样本对话信息,生成当前样本对话状态信息;基于待训练策略网络和待训练价值网络进行树搜索,
2025-04-26 21:25:00
首个支持普通话和方言混说的TTS大模型:河南话、上海话说得溜
...Bailing-TTS 河南话的合成效果: 再给大家听一下普通话零样本克隆的效果:我们采取了多项创新技术来实现这一目标
2024-08-14 09:38:00
NeurIPS Spotlight|从分类到生成:无训练的可控扩散生成
...然而,生成符合特定条件(如标签、属性或能量分布)的样本,通常需要为每个目标训练专门的生成模型,这种方法不仅耗费资源,还严重制约了扩散模型作为未来基座模型实际应用潜力。为了解决
2024-12-06 09:52:00
圆桌论坛:ChatGPT的第一性原理:通往AGI的路上还有哪些系统性机会? | WISE2023颠覆AIGC产业发展峰会
...的深度学习模型同样具备智能涌现的可能,而处理大规模样本至关重要。中科智云的X-Brain平台结合预训练模型和小样本技术,可实现强大的样本自标注。我们将继续训练图像领域的大模型
2023-05-29 15:58:00
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...过程中逐步逼近最优策略,同时确保系统满足安全约束。样本复杂度与安全违反分析在安全强化学习中,另一个关键的理论问题是样本复杂度。样本复杂度衡量的是在给定约束条件下,算法需要多少
2024-10-09 09:51:00
...立足实际需求,历时六年,针对人工智能三要素“数据(样本)、算法、算力”逐个突破,形成高性能人工智能技术体系,并通过输电巡检图像智能识别比赛等形式,优选高性能算法进行培育,迭代
2024-03-07 17:43:00
更多关于科技的资讯:
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00
10月1日,从太钢获悉,今年以来,太钢不锈进料加工团队以“精准备案、高效协同”为核心,在进料铬铁镍铁资源利用方面取得突破性进展
2025-10-02 17:39:00
厦门网讯(厦门日报记者 林露虹)记者昨日从中国移动咪咕公司获悉,该公司打造的“鼓浪屿AI伴游”服务已正式上线。市民和游客只需打开“鼓浪屿元宇宙”微信小程序
2025-10-02 08:57:00
“中国脑机谷”落户新奥新智感知产业园 政企研协同构建脑机接口产业新生态
河北新闻网讯(张新)9月26日,脑机接口产业联盟首届“脑机接口50人论坛”暨天津脑机接口产业创新发展推进会举办。会上,由新奥集团旗下的天津新智感知科技有限公司
2025-10-01 08:40:00
国网三明供电公司:守护灯火庆华诞 主动运维显担当
国网三明供电公司检修人员及时更换损坏器件并调整传动系统并完成设备修复及全套试验。(纪长添 摄)东南网10月1日讯 9月28日
2025-10-01 09:19:00
9月26日,由华东政法大学与上海星瀚律师事务所联合主办的第三届“星瀚杯”走进企业的法律课公益大赛正式启动。腾讯云作为大赛的技术支持单位
2025-10-01 09:56:00
平望实小承办吴江区骨干教师(数学)讲学团活动
为进一步发挥吴江区骨干教师的示范和辐射作用,推进课堂教学改革,有效提升教师教学业务能力。2025年9月24日,由苏州市吴江区教师发展中心主办的2025年吴江区骨干教师(数学)讲学团活动在平望实验小学举行
2025-10-01 09:58:00
AI技术让抗战文物“活起来”,人民日报数字传播联合百度推抗战文物智能体
9月30日,由人民日报数字传播与中国国家博物馆、中国人民大学、百度文心大模型、百度百科联合出品的《80年,80件》智能体和3D文物词条正式上线
2025-10-01 10:00:00
新时达2025工博会圆满落幕 | STEP 2.0战略引领智能制造新篇章
2025年9月23日至27日,第二十五届中国国际工业博览会在国家会展中心(上海)盛大举行。新时达以"智拓无界 共创未来"为主题
2025-10-01 10:00:00