• 我的订阅
  • 科技

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

类别:科技 发布时间:2024-08-14 09:39:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者为清华大学计算机系本科生钱成,何秉翔。两人均为 THUNLP 成员。钱成主要研究兴趣为工具学习,大模型驱动智能体,即将就读 UIUC 博士。何秉翔主要研究兴趣为大模型对齐与安全,即将就读清华大学博士。本文通讯作者为从鑫与林衍凯,指导教师为刘知远副教授。

在人工智能迅猛发展的今天,我们不断探索着机器的智能化,但却往往忽视了这些智能体如何深层地理解我们 —— 它们的创造者。我们人类在生活中的每一次互动,每一句话语,每一个行为,都充斥着意图和情感。但真正的挑战在于:这些隐式的意图如何被智能体捕捉、解析并作出反应?传统的智能体对明确的命令反应迅速,然而在理解复杂的人类隐式意图上,它们往往显得力不从心。

近年来,GPT 和 LLaMA 等语言模型展示了在解决复杂任务上的惊人能力。然而,尽管以它们作为核心的智能体擅长制定策略、执行任务,却很少兼顾鲁棒的用户交互策略。用户给出的任务通常是模糊和简短的,这就需要智能体不仅能理解我们的字面请求,更要能透视我们的隐式意图。

因此,让新一代的智能体落地并为大众所用,需要以人为中心,不仅仅关注于任务执行的精确度,更关注于如何与人类建立起一种更加自然、流畅而富有洞察力的沟通方式。

为了弥补这一缺失,近期来自清华大学、人民大学、以及腾讯的联合团队提出了一种全新的智能体交互设计方案。该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。

以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,文章对完全态的智能体系统进行了全面评估。

结果显示,这套方案在识别模糊用户任务、恢复和总结关键缺失信息、设定精确且必要的智能体执行目标、以及减少冗余工具使用等诸多方面有着突出表现。这一创新的方法,不仅填补了智能体与用户交互的空白,将人类真正置于智能体设计的中心,同时意味着我们正在向着设计更加符合人类意图的智能体的目标迈进一步。

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

论文标题:Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents

论文链接:https://arxiv.org/abs/2402.09205

代码仓库:https://github.com/HBX-hbx/Mistral-Interact

开源模型:https://huggingface.co/hbx/Mistral-Interact

开源数据集:https://huggingface.co/datasets/hbx/IN3

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

智能体系统对于模糊任务和清晰任务执行的对比

Intention-in-Interaction 基准测试

当前的智能体基准测试通常假设给定的任务是清晰的,并没有把用户意图理解当作评估的重要方面。鉴于评估指标的不完备性,该工作制定了 Intention-in-Interaction(IN3)基准测试,旨在通过明确的任务模糊性判断和用户意图理解来评测智能体的交互能力。

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

IN3 基准数据的构造过程

如上图所示,基于人类编写的种子任务为 Step 1,模型迭代生成新任务以增强数据集,同时从数据集中采样以作为下一轮生成的新示例(Step 2)。在这种 Self-Instruct 的生成方式后,再对每个任务的模糊度、缺失细节以及每个细节的重要程度和潜在的选项进行人工标注(Step 3)。

Mistral-Interact 训练过程

由于大语言模型处于智能体设计的核心位置,该工作首先进行了一项初步研究,评估当前开源和闭源模型在交互过程中的隐式意图理解能力。

具体地,文章从 IN3 中随机抽取了十个任务,将它们应用于测试 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 并指示这些模型 i)判断任务的模糊度,ii)在任务模糊时询问用户缺失的细节,iii)总结详细的用户任务。

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

隐式意图理解初步研究中各个模型的定量与定性结果展示

由结果可见,Mistral 在一定程度上表现更好,但仍然存在对人类意图理解不足的问题。相比之下,GPT-4 在任务模糊度和重要缺失细节方面与人类意图最为接近。同时,初步探索也表明,为了进一步提升智能体在交互中的隐式意图理解能力,单纯的提示工程(prompt engineering)是不够的,有必要以当前开源模型为基础,进一步训练,以达到可以在智能体落地应用的程度。

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

训练数据(IN3 对话记录)的构造过程

参照上图,根据 IN3 关于任务模糊度、缺失细节和潜在选项的标注,文章在构建对话记录过程中应用了若干策略(橙色框),其中包括:清晰初始推理链的构造、带有建议选项的询问构造、不同用户回答语气的构造、以及清晰总结推理链的构造。这几种对话构造策略将更好地激发目标模型的询问以及推理能力。

智能体交互能力全面评估

智能体的隐式意图理解能力既可以通过用户交互来直接评估,也可以通过智能体执行下游任务来间接评估。其中,用户交互关注意图理解本身,而任务执行关注意图理解的最终目的,即增强智能体处理任务的能力。

因此,为了全面评估可交互智能体设计,文章将实验分为两个部分:i)指令理解:评估智能体在用户交互期间的意图理解能力;ii)指令执行:评估集成了交互模型后智能体的任务执行表现。

指令理解并不涉及任何实时的智能体执行,因此文章直接评估了不同语言模型在交互过程中的表现,以判断其作为智能体设计中的上游模块的交互能力,结果如下表所示:

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

指令理解测试结果,其中箭头代表得分越高 / 越低则能力更强

结果表明,Mistral-Interact 能够更好地理解用户的意图,在判断任务模糊度以及缺失细节的覆盖率等指标上表现最佳,而且能够基于详细的用户意图进行明确而全面的总结。相较于其他开源模型,Mistral-Interact 在询问模糊任务中的缺失细节方面能提供更加合理的选项,询问方式更加友好,并与 GPT-4 的表现不相上下。

在指令执行方面,为了评估隐式意图理解对于智能体任务执行有效性,文章将 Mistral-Interact 作为上游交互模块整合到 XAgent 框架中进行测试。其中,XAgent 可以在诸如网络搜索、代码执行、命令行和文件系统等环境中进行交互。

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

指令执行测试结果 (ST 代表 subtask,MS 代表 milestone)

上表呈现了智能体任务执行的定量评估结果,结果表明整合 Mistral-Interact 有助于:i)在执行过程中避免设定不必要的目标,ii)使智能体的执行过程更加符合详细的用户意图,以及 iii)减少不必要的工具调用,促进智能体工具使用效率。

智能体交互案例分析

在指令理解方面,为了进一步展示 Mistral-Interact 在不同对话场景下的鲁棒性,文章还提供了三个案例分析。

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

Mistral-Interact 与用户在不同场景下的案例分析

案例 A 展示了不同用户语气和对话风格对 Mistral-Interact 的影响。文章发现,无论用户的回答是简短还是详细,热情还是冷漠,甚至包含拼写错误,Mistral-Interact 都能准确理解并提供适当的回应,证明了其鲁棒性。

在案例 B 测试了当用户表现出不合作的态度时,Mistral-Interact 是否能够继续追问并引导对话回到正轨。结果显示,即使用户回避问题,其仍然能够有效地重新引导对话。

在案例 C 中可以观察到 Mistral-Interact 可以将用户提供的额外信息纳入总结,而这些信息并没有被交互模型明确询问。这表明,当模型的询问无法完全覆盖缺失细节或用户有特定要求时,模型仍然能够合理而全面地总结所有用户意图,从而使其更加用户友好。

在指令执行方面,为了更清晰阐明 Mistral-Interact 的作用,下图中提供了一个比较的案例研究。

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

智能体与 Mistral-Interact 交互前后的执行过程的案例研究

根据上图中标记为浅红色的文本,可以发现当用户的目标模糊时,XAgent 无法准确设定精确反映用户需求的子任务。根据标记为紫色的文本,可以发现 XAgent 时常会设置一些不必要的子任务。这些均因为用户的任务过于模糊而无法执行,智能体倾向于虚构一些不必要的细节,从而与用户的真实意图不符。

相比之下,在与 Mistral-Interact 进行积极交互后,明确的任务目标能够让 XAgent 制定更具体的子任务。图中标记为绿色的文本展示了这种一致性。同时,智能体执行流程变得更加简单,工具调用次数也有所减少。所有这些都反映了一个更加高效的智能体执行过程。

结语

我们正站在一个全新的起点,准备见证一个人机协同、相互理解与学习的新篇章。智能体即将不再是冰冷的信息处理器,而是充满同理心的伙伴,它们能够通过细腻的交互体验,深刻理解我们背后可能并没有最初明确表达的需求和愿望。这场以人为中心的智能体设计革命,将揭示出交互中的无限可能性,进而让智能体真正成为我们生活中不可或缺的助力。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-14 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

掰开揉碎告诉你,ChatGPT凭啥是人工智能“流量王”
...策略优化” PPO的算法,以持续优化模型参数。其原理示意图如下图1所示。图1 ChatGPT的RLFH原理示意图“第一性原理”是一种思维方法,强调从事情最根本的真理入手,透过
2023-05-29 11:00:00
...的情况下利用概率预测完成任务,而人类的工作依靠内部意图驱动。大语言模型生成语言与人类语言生成只是有行为上的相似性,其内在机制根本不同,大语言模型存在不自知、质量不可控、不可信
2024-03-21 09:57:00
能与人类谈判、游戏水平媲美真人,Meta 是如何构建新人工智能 CICERO 的?
...善该预测,然后利用这些预测为自己和合作伙伴形成一个意图。第 3 步:根据棋盘状态、对话和意图,生成几条候选信息。第 4 步:对候选信息进行过滤,减少废话,使价值最大化,并确保
2023-01-14 13:00:00
国内首个类ChatGPT模型发布,服务器被挤崩
...OSS的开发过程也包括自然语言模型基座预训练、理解人类意图的对话能力训练两个阶段。不同的是,复旦团队采用不同的技术路线,通过让MOSS和人类以及其他对话模型都进行交互,提升学
2023-03-02 13:52:00
智能机器人展团:人形机器人“TA”会取代“我”吗? 扫码阅读手机版
...款人形机器人可以和人进行自然语言交互、精准理解人的意图,在多种场景中执行任务。 “可以看到,人形机器人为人工智能的各类技术提供了‘练兵场’。”熊德意说,有了人形机器人,大模
2024-07-17 13:50:00
1000个智能体创建首个「AI文明」!北大校友放弃MIT教职打造「西部世界」
...,智能体应该能够出于多种原因进行交流——表达自己的意图、闲聊、分享它们的希望和梦想。为此,团队构建了一组对话模块。一方面可以让智能体的言语与它们的行动和意图一致,另一方面则是
2024-09-05 09:51:00
从智能中枢到超拟人助手:三星Galaxy S25系列揭示手机未来形态
...图片和文档中的大千世界,让用户真正能够实现“一语多意图”、当冰冷的机器开始感知人类情绪——三星Galaxy S25系列正在用一场"AI拟人化革命",塑造智能手机的未来新形态。
2025-02-12 12:19:00
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...的,并未表现出完全自主发展的趋势,也没有产生独立的意图或动机。例如,在社交智力测试(Social IQA)中,模型能够正确回答涉及情感和社会情境的问题,例如:“卡森醒来去上学
2024-08-19 09:31:00
大模型+工业机器人    满足产线特有任务需求
...力,一线工人只需发送一段文字,千问大模型就能理解其意图进行任务推理,并自动翻译成机器可以理解的代码,指挥机器执行任务,有效提升生产效率。张勇表示:“制造业是AI大模型的重要战
2023-05-09 01:58:00
更多关于科技的资讯:
固体废物综合治理是生态文明建设的重要内容,也是推进美丽中国建设的关键环节。近日,国务院办公厅印发《固体废物综合治理行动计划》
2026-01-24 12:14:00
鲁网1月24日讯国家新一轮消费品以旧换新及数码智能产品购新补贴政策红利持续释放。作为通信行业标杆企业,山东移动济宁分公司积极响应国家号召
2026-01-24 14:00:00
提供16万多方生态空间 设立7亿元资本活水每日商报讯 眼下,“AI漫剧”正加速走入公众视野。作为人工智能时代下中国文化“新三样”(网文
2026-01-24 10:59:00
固安搭建AI智慧招商平台 30秒生成企业选址方案
1月20日,“立业固安”平台工作人员(中)通过平台向企业推荐合适的选址方案。 万 倩摄河北日报讯(记者刘英)30秒,生成一份定制化的选址方案
2026-01-24 08:19:00
近日,杭州德胜快速路(石德立交至明石路段)、秋石快速路(石德立交-石石立交)两项夜景照明提升工程顺利竣工。具体有哪些改变
2026-01-24 09:28:00
距离过年只剩大半个月时间,今年的年货你已经准备好了吗?本周日,100多个AI高手将集结在杭州东站的中国数谷·未来数智港
2026-01-24 10:29:00
来雄安,体验智能弹性绿波带
来雄安,体验智能弹性绿波带主要道路早晚高峰通行缩短15分钟近日,雄安新区容东片区乐民街的数字化道路上,车辆顺畅通行。 河北日报记者 刘光昱摄河北日报讯(见习记者康晓博)从雄安新区工信科技数据局获悉
2026-01-24 08:27:00
太重集团1月21日发布消息,太重首批32米纯电直臂式高空作业平台顺利批量下线,这不仅是太重高空作业平台产品型谱的重要补位
2026-01-24 07:17:00
武文博 柳州工学院随着科学技术的迅猛发展,人工智能(AI)技术在各个领域的应用日益广泛,尤其在电子信息与自动化系统设计中
2026-01-24 00:03:00
常胜 徐州九鼎机电总厂目前,智能制造已经成为推动制造业高质量发展的重要引擎。智能制造技术为人类社会的生产生活带来前所未有的变革与创新发展
2026-01-24 00:03:00
科学循证引领抗衰新方向 斐萃研究院赋能30+ 40+女性精准抗衰
1月17日,2026国际前沿抗衰老及代谢研究学术交流会暨斐萃科学抗衰研究院成立大会在广州顺利举办。本次大会汇聚产学研医权威力量
2026-01-23 20:36:00
喜茶低调盘点2025年度小事 差异化战略成效显著
鲁网1月23日讯1月23日,喜茶在官方微博上发布了2025年度“小事记”,盘点了过去一年在差异化产品和品牌方面的关键“小事”
2026-01-23 20:38:00
仁怀:国补红利精准释放 消费市场迎开年“开门红”
多彩贵州网讯2026年消费品以旧换新国补政策于1月10日全面落地,中央625亿元超长期特别国债资金的强力加持,叠加商家精准承接的配套优惠与服务升级
2026-01-23 20:37:00
中国消费者报北京讯(记者桑雪骐)近日,追觅科技正式官宣成为中央广播电视总台2026年春节联欢晚会智能科技生态战略合作伙伴
2026-01-23 17:16:00
飞利浦旋护新9系Ultra高端款剃须刀新意限定版首发上市
新春将至,大家都希望以最好的状态和面容迎接新年,新春礼赠更要送到“面子上”。每份精心挑选的礼物都承载着对亲密关系的珍视
2026-01-23 17:09:00