• 我的订阅
  • 科技

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

类别:科技 发布时间:2024-11-07 09:54:00 来源:机器之心Pro

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

网络智能体旨在让一切基于网络功能的任务自动发生。比如你告诉智能体你的预算,它可以帮你预订酒店。既拥有海量常识,又能做长期规划的大语言模型(LLM),自然成为了智能体常用的基础模块。

于是上下文学习示例、任务技巧、多智能体协同、强化学习算法…… 一切适用于通用智能体的想法都抢着在大模型落地。

然而有一个问题始终横亘在LLM 和智能体之间:基于 LLM 的网络智能体的行动 / 观测空间与 LLM 训练数据的空间相去甚远。

智能体在充斥着具身行为的行动空间(如鼠标悬停、键盘组合键)和遍布前端功能强化、格式渲染的观测空间下运作,大语言模型的理解和推理能力能充分发挥作用吗?尤其是大语言模型的主要训练任务是文本补全、问答和对齐人类偏好,这一点值得思考。

来自伊利诺伊大学香槟分校和亚马逊的研究人员选择和这些问题进一步对话。他们去除了上下文示例、技巧、多智能体系统,仅仅通过行动 / 观测空间与 LLM 的训练任务对齐。他们训练的 AgentOccam 成为了零样本基于 LLM 的网络智能体新 Sota。

这正呼应了奥卡姆剃刀原则:「若无必要,勿增实体」。然而换个思考的角度,AgentOccam 的研究团队也想发问:构建通用智能体时,在铺设复杂的系统框架前,是否已经优化了行动 / 观测空间,让这些功能模块达到了最优状态?

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

论文链接:https://arxiv.org/abs/2410.13825 论文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

背景及动机

某天你刷着短视频,看中了主播手中拿着的商品。于是,你兴致勃勃地对智能助手说:「我是学生,让这个老板送我一张优惠券!」

随后,智能体申请了你的私人账号权限、后台私信商家、绘声绘色地写下「我是学生」,发送消息,一套动作无需人为干预,行云流水......一切这样的任务,再也不必动手,都有智能体代劳。

大语言模型是构建智能体的热门选择。过去,基于 LLM 的网络智能体通常专注于让智能体学会某种应用,比如构建上下文学习样本、积累任务经验与技巧、以及多智能体角色扮演等等。然而,在实际交互中,智能体的行动 / 观测空间与 LLM 的技能点不太匹配,这之间的差距却少有人研究。

于是,针对如何对齐基于 LLM 的网络智能体的观测和行动空间与其训练期间学到的功能,来自伊利诺伊大学香槟分校和亚马逊的研究人员们展开了研究。

网络智能体需要准确地从格式各异、编码脚本不一的网页中提取信息,并在网页上定义的动作(例如,鼠标滑轮滚动、点击或悬停在按钮上)中进行选择。这些网络观测和行动空间在 LLM 的预训练和后续训练数据中都较为罕见,这阻碍了 LLM 充分调动潜能,完成任务。

因此,基于不让智能体策略变得更复杂,而是让智能体与LLM 更加匹配的想法,由此构建的智能体得名 AgentOccam。

形式化与方法

该团队通过部分可观测的马尔可夫决策过程(POMDP),将网络交互过程形式化为:

在 POMDP 中,观测 o∈O 是智能体从网络环境接收到的信息,例如 HTML,以及任何指令和提示。行动 a∈A 是网络环境认可的动作指令。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

如上图所示,AgentOccam 包括三个组成部分:

首先,减少非必要的网络交互动作,让智能体的具身和琐碎互动需求达到最小; 其次,消除冗余和不相关的网页元素,并重构网页内容块,以获取更简洁但同样信息丰富的表示,从而精炼观察空间; 最后,引入两个规划动作(分支和修剪),这使得智能体能够以规划树结构自组织导航工作流,并使用相同结构过滤历史步以进行回放。

整个框架通过一套适用于所有标记语言的通用规则来格式化网页,无需依赖测试基准中的任务相关信息。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

网络智能体的行动空间规定了可以用来与网络环境交互的有效命令。

研究团队从智能体常见的失败中得出总结:想要成功完成任务,需要编辑行动空间来解决两个关键问题:第一,去除 LLM 难以理解且经常误用的无关行动;第二,当执行任务需要规划、尝试多个潜在路径时,要提高智能体的记忆和规划能力。

为此,该团队提出了对应的解决方法。第一个问题可以通过简单地移除或合并操作来解决(如上图中的步骤 1 和 2)。对于第二个问题,过去的研究通常依赖人工制定规则或任务技巧,但这些方法难以泛化。在本研究中,LLM 将自主生成计划和管理任务流程(如步骤 3 所示)。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

AgentOccam 的观测空间(提示词)包含了任务概述的通用指令、期望的输出和可用操作说明,以及关于当前任务目标、智能体过去的交互记录和最新的观察信息。

过往互动和当前观测的部分占据了最多的字符数。这主要归因于两个因素:单页面的长度和历史跨度的范围,这是AgentOccam观测空间的主要优化对象。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

网页标记语言主要用于前端加载和渲染,往往包含大量格式化字符,显得冗余且重复(如上图步骤 1 所示)。因此,此时的目标是优化这些表示方式,使得单页内容对 LLMs 更加简洁易读。

将观测历史作为输入,对于执行长程任务至关重要。因为一些关键信息可能不会显示在当前页面上。然而,观测历史也会显著增加上下文长度,并增加推理难度以及推断成本。

为了解决这个问题,设置仅选择先前网页上最重要和相关的信息,这一选择依据两个规则,分别基于关键节点和规划树,见于步骤 2 和 3。

结果

研究团队在 WebArena 上评估了 AgentOccam 性能。WebArena含有 812 项任务,横跨网购、社交网站、软件开发、在线商贸管理、地图等。

测试对象为AgentOccam 框架下的GPT-4-Turbo。对比的基线包括:一、WebArena 随配智能体,二、SteP,前 WebArena 上最优智能体,涵盖 14 条人类专为 WebArena 任务编写的技巧,三、多智能体协同方法 WebPilot;四、总结智能体交互经验的工作 AWM。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

从上表不难看出,AgentOccam 性能优于以往及同期工作。其中,AgentOccam 分别以 9.8(+29.4%)和 5.9(+15.8%)的绝对分数领先往期和同期工作,并且通过其观测与行动空间的对齐,使得相似的基本网络智能体的成功率提高了 26.6 点(+161%)。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

消融实验

逐模块对比行动与观测空间的对齐对最终结果的贡献。从下表可以看出,行动空间对齐能使智能体完成更多 click、type 等引导环境变化的动作,观测空间对齐则减少大模型调用的字符数与智能体完成任务所需的步数。

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

LLM-as-a-Judge

研究团队发现,智能体的决策行为波动性很强。简而言之,面对一个目标,智能体有一定概率做出正确的行为决断,但由于 token 预测的随机性,它可能做出一些高成本、低回报的决定。这也导致它在后续步骤中难以纠正之前的错误而失败。

例如,要求智能体在某个最相关的话题下发布帖子,单次 LLM 调用的 AgentOccam 往往轻率地选择话题,未考虑「最相关」的要求。

为了解决此类问题,他们引导 AgentOccam 生成单步内所有可能的行动,这系列行动将交付另一个 Judge 智能体(同样调用 GPT-4-turbo)决断,做出最大化回报的选择。

与复合策略结合使用

复合策略中,与任务相关的经验可以提升智能体性能。同时,不因为加入了更多背景知识扰乱决策,不会影响泛化性,能够纠正错误行为模式。

由于行为 / 观测空间对齐和复合策略方法正交,因此能结合利用。该团队试验将 AgentOccam 与 1)SteP 和 2)上述的 LLM-as-a-Judge 方法联合使用。

对于和前 SOTA 方法 SteP 联合,由于它引入人类编写的 WebArena 任务攻略,在经验密集型任务,如购物网页任务中,人类撰写的引导性经验大幅提升任务成功率。

而在常识泛化密集型任务,如社交网页发帖任务中,不相关知识出现会错误扰乱智能体决策。对于 LLM-as-a-Judge 方法,Judge 角色的引入不影响智能体的泛化性,同时纠正了智能体仓促决策的错误行为模式,在 WebArena 上进一步提升 2.6 的绝对分数。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-07 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

始于安全,不止安全丨迪普科技AI基座解决方案发布
...署需求。 智能体:“预训练+微调”双阶段驱动,小样本学习能力出众 迪普科技在本次发布会推出的智能体基于DeepSeek、通义千问、百川等大模型,构建了三位一体
2025-03-13 10:45:00
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
...直持续到 2023 年 12 月,提供了长时间范围和及时的数据样本,能够进一步增强该数据集的应用价值。 构建轨迹基础模型 UniTraj在模型的架构设计上
2024-11-23 09:42:00
策略产品经理必读系列第七讲:机器学习分类任务基础评估指标AUC、召回率、准确率
...是一个连续值。分类和聚类任务最终模型的输出都是这个样本属于哪一个类别,但是回归任务是输出最终实际的数值是什么,是一个具体的数字。常见的应用场景有销量预测和智能定价。二、分类任
2023-05-06 13:00:00
科大讯飞申请对话模型训练等专利,提升多轮对话的生成质量
...设备及介质,涉及人机交互技术领域,该方法包括:根据样本对话中的当前样本用户输入信息和历史样本对话信息,生成当前样本对话状态信息;基于待训练策略网络和待训练价值网络进行树搜索,
2025-04-26 21:25:00
首个支持普通话和方言混说的TTS大模型:河南话、上海话说得溜
...Bailing-TTS 河南话的合成效果: 再给大家听一下普通话零样本克隆的效果:我们采取了多项创新技术来实现这一目标
2024-08-14 09:38:00
NeurIPS Spotlight|从分类到生成:无训练的可控扩散生成
...然而,生成符合特定条件(如标签、属性或能量分布)的样本,通常需要为每个目标训练专门的生成模型,这种方法不仅耗费资源,还严重制约了扩散模型作为未来基座模型实际应用潜力。为了解决
2024-12-06 09:52:00
圆桌论坛:ChatGPT的第一性原理:通往AGI的路上还有哪些系统性机会? | WISE2023颠覆AIGC产业发展峰会
...的深度学习模型同样具备智能涌现的可能,而处理大规模样本至关重要。中科智云的X-Brain平台结合预训练模型和小样本技术,可实现强大的样本自标注。我们将继续训练图像领域的大模型
2023-05-29 15:58:00
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...过程中逐步逼近最优策略,同时确保系统满足安全约束。样本复杂度与安全违反分析在安全强化学习中,另一个关键的理论问题是样本复杂度。样本复杂度衡量的是在给定约束条件下,算法需要多少
2024-10-09 09:51:00
...立足实际需求,历时六年,针对人工智能三要素“数据(样本)、算法、算力”逐个突破,形成高性能人工智能技术体系,并通过输电巡检图像智能识别比赛等形式,优选高性能算法进行培育,迭代
2024-03-07 17:43:00
更多关于科技的资讯:
新闻纵深|订单旅行记⑤:一个品牌的抱团突围
一个品牌的抱团突围——订单旅行记⑤■阅读提示玉田,素有“中国印刷机械之乡”的美誉。然而,这个国内市场占有率超20%的印机产业集群
2026-04-17 08:05:00
一线见闻|AI面试舱 求职新体验
4月2日9时许,唐山市民服务中心人力资源交流大厅内人头攒动,唐山市综合招聘会正在进行。众多展位中,一座外观简洁的AI面试舱凭借智能高效
2026-04-17 08:08:00
斐纳LT-2309助听器 高清降噪 精准助听
对于许多有轻度至中度听力困扰的朋友来说,选择一款合适的助听器并非易事。市场上品牌众多,从国际一线到国产品牌,价格和性能差异巨大
2026-04-17 08:17:00
厦门网讯(厦门日报记者 吴君宁)近日,嘉庚创新实验室联合华为发布《智能实验室发展报告》,同步启用物质科学智能算力平台。这标志着我国在能源材料科研领域拥有了首个软硬自主创新的智能算力基础设施
2026-04-17 08:26:00
在第26个“世界知识产权日”来临之际,4月14日,省高院启动知识产权司法保护宣传周活动,通报2025年浙江知识产权司法保护情况
2026-04-17 08:40:00
全能全域 智富王者 | 潍柴雷沃2026款玉米机上市暨节油减损指标发布会举行
鲁网4月16日讯4月15日,以“全能全域 智富王者”为主题的潍柴雷沃智慧农业2026款玉米收获机械新品上市暨节油减损指标发布会在山东潍坊举行
2026-04-17 09:27:00
加速“出海” | 潍柴雷沃智慧农业亮相第139届广交会
鲁网4月16日讯4月15日,第139届广交会在广州启幕。潍柴雷沃智慧农业多款智能农机亮相现场,向全球客商展现中国农机智造助力世界粮食安全的硬核实力
2026-04-17 09:30:00
在人工智能浪潮席卷全球、传统高等教育模式面临深刻变革的当下,吉利控股集团和芯位科技共同宣布启动“跨时代跃迁人才培养计划”
2026-04-17 09:43:00
“十五五”开局看河北|邯郸工业品,直播间里闯市场
车间变身云展厅 重卡也能“上链接”邯郸工业品,直播间里闯市场4月16日,宜邦机械科技(邯郸市)有限公司主播正在讲解紧固件产品
2026-04-17 08:04:00
当AI成为最可靠的“合伙人”,一个人也能掀起创业浪潮。随着人工智能技术的飞速发展,一种以“单人+AI工具”为核心运营模式的新型创业形态——一人公司(One Person Company
2026-04-17 07:09:00
4月15日至17日,以“服务提质”为主题的第二十六届中国零售业博览会(2026 CHINASHOP)在杭州大会展中心举办
2026-04-17 07:39:00
英特尔全球高管来杭 专程到上城喝了一杯咖啡
AlphaBot机器人正在制作咖啡4月15日下午,上城区丁兰街道西子智慧产业园迎来了英特尔全球高管一行。他们进门的第一件事
2026-04-17 07:39:00
昨天,杭州市余杭区和临平区初三年级第一次模拟考试举行。上午,语文学科先进行了测试。上午11点考试结束后,作文题目出炉:写作交流活动(50分)阅读下面材料
2026-04-17 07:39:00
眼下,杭州OPC(一人公司)创业者数量持续增长,但普遍面临诸多难题。比如缺乏固定经营场所导致准入门槛高,技术或创意出身的创业者对合规经营
2026-04-17 07:39:00
4月16日,阿里巴巴发布可实时构建和交互的世界模型产品HappyOyster(快乐生蚝)。该模型基于原生多模态架构而建
2026-04-17 07:39:00