• 我的订阅
  • 科技

用AI自动设计智能体,数学提分25.9%,远超手工设计

类别:科技 发布时间:2024-08-24 09:36:00 来源:机器之心Pro

基于 ADAS 所发现的智能体的性能大大优于最先进的手工设计的基线。

基础模型 (FM) 如 GPT 和 Claude ,正在成为通用智能体的强有力支持,被越来越多的用于多种推理和规划任务。

然而,在解决问题时,需要的智能体通常是具有多个组件的复合智能体系统,而不是单片模型查询 。此外,为了使智能体能够解决复杂的现实世界任务,它们通常需要访问外部工具,例如搜索引擎、代码执行和数据库查询。

因此,人们提出了许多有效的智能体系统构建块,例如思维链规划和推理、记忆结构、工具使用和自我反思。尽管这些智能体已经在各种应用中取得了显著的成功,但开发这些构建块并将它们组合成复杂的智能体系统通常需要特定领域的手动调整以及研究人员和工程师的大量努力。

然而,机器学习的历史告诉我们,手工设计的解决方案最终会被模型学习到的解决方案所取代。

本文,来自不列颠哥伦比亚大学、非营利人工智能研究机构 Vector Institute 等的研究者制定了一个新的研究领域,即智能体系统的自动化设计(ADAS,Automated Design of Agentic Systems),并提出了一种简单但有效的 ADAS 算法,名为元智能体搜索(Meta Agent Search),以证明智能体可以通过代码编程来发明新颖而强大的智能体设计。

该研究旨在自动创建强大的智能体系统设计,包括开发新的构建块并以新的方式组合它们。

实验表明,基于 ADAS 所发现的智能体的性能大大优于最先进的手工设计的基线。例如,本文设计的智能体在 DROP 的阅读理解任务中将 F1 分数提高了 13.6/100(与基线比),在 MGSM 的数学任务中将准确率提高了 14.4%。此外,在跨域迁移后,它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。

与手工设计的解决方案相比,本文算法表现出色,这说明 ADAS 在自动化智能体系统设计方面的潜力。此外,实验表明,所发现的智能体不仅在跨相似领域迁移时表现良好,而且在跨不同领域迁移时也表现出色,例如从数学到阅读理解。

用AI自动设计智能体,数学提分25.9%,远超手工设计

论文地址:https://arxiv.org/pdf/2408.08435 项目地址:https://github.com/ShengranHu/ADAS 论文主页:https://www.shengranhu.com/ADAS/ 论文标题:Automated Design of Agentic Systems

新研究领域:智能体系统的自动化设计(ADAS)

该研究提出了一个新的研究领域 —— 智能体系统的自动化设计(Automated Design of Agentic Systems,ADAS),并描述了 ADAS 算法的三个关键组成部分——搜索空间、搜索算法、评估函数。ADAS使用搜索算法跨搜索空间来发现智能体系统。

用AI自动设计智能体,数学提分25.9%,远超手工设计

搜索空间:搜索空间定义了哪些智能体系统可以在 ADAS 中被表征并被发现。例如,像 PromptBreeder (Fernando et al., 2024) 这样的工作仅改变智能体的文本提示,而其他组件(例如控制流)保持不变。因此,在搜索空间中,无法表征具有与预定义控制流不同控制流的智能体。

搜索算法:搜索算法定义了 ADAS 算法如何探索搜索空间。由于搜索空间通常非常大甚至无界,因此应考虑探索与利用的权衡(Sutton & Barto,2018)。理想情况下,该算法既可以快速发现高性能智能体系统,又可以避免陷入局部最优。现有方法包括使用强化学习(Zhuge et al., 2024)或迭代生成新解决方案的 FM(Fernando et al., 2024)作为搜索算法。

评估函数:根据 ADAS 算法的应用,可能需要考虑不同的优化目标,例如智能体的性能、成本、延迟或安全性。评估函数定义如何评估候选智能体的这些指标。例如,为了评估智能体在未见过的数据上的表现,一种简单的方法是计算任务验证数据的准确率。

该研究提出的简单但有效的 ADAS 算法——元智能体搜索的核心概念是指示元智能体迭代地创建有趣的新智能体,评估它们,将它们添加到智能体存储库中,并使用此存储库帮助元智能体在后续迭代中创建更有趣的新智能体。与现有的利用人类兴趣概念的开放式算法类似,该研究鼓励元智能体探索有趣的、有价值的智能体。

元智能体搜索的核心思想是采用 FM作为搜索算法,基于不断增长的智能体存储库来迭代编程有趣的新智能体。该研究为元智能体定义了一个简单的框架(100 行代码以内),为其提供了一组基本功能,例如查询 FM 或格式化提示。

因此,元智能体只需要编写一个「前向」函数来定义一个新的智能体系统,类似于 FunSearch 中的做法(Romera-Paredes et al., 2024)。该函数接收任务信息并输出智能体对任务的响应。

如图 1 所示,元智能体搜索的核心思想是让元智能体在代码中迭代地编程新的智能体。下面显示了元智能体程序新智能体程序的主要提示,其中提示中的变量高亮显示。

用AI自动设计智能体,数学提分25.9%,远超手工设计

用AI自动设计智能体,数学提分25.9%,远超手工设计

实验

所有实验结果表明本文发现的智能体大大优于基线最先进的手工设计的智能体。值得注意的是,该研究发现的智能体在 DROP 阅读理解任务上比基线提高了 13.6/100(F1 分数),在 MGSM 数学任务上比基线提高了 14.4%(准确率)。此外,研究者发现的智能体在从 GPT-3.5 迁移到 GPT-4 后,在 ARC 任务上的表现比基线提高了 14%(准确率),在从 MGSM 数学任务迁移到 GSM8K 和 GSM-Hard 中的 held-out 数学任务后,准确率分别提高了 25.9% 和 13.2%。

案例研究:ARC 挑战

如图 3a 所示,元智能体搜索可以有效且逐步地发现性能优于最新手工设计的智能体。文本框中突出显示了重要的突破。

此外,图 3b 显示了发现最好的智能体,其中采用了复杂的反馈机制来更有效地细化答案。仔细观察搜索进度就会发现,这种复杂的反馈机制并不是突然出现的。

用AI自动设计智能体,数学提分25.9%,远超手工设计

推理和问题 - 解决域

跨多个域的结果表明,元智能体搜索可以发现表现优于 SOTA 手工设计的智能体(表 1)。

用AI自动设计智能体,数学提分25.9%,远超手工设计

泛化性以及可迁移性

研究者进一步展示了所发现智能体的可迁移性和可泛化性。

如表 2 所示,研究者观察到搜索到的智能体(searched agent)始终优于手工设计的智能体,并且差距很大。值得注意的是,研究者发现 Anthropic 最强大的模型 Claude-Sonnet 在所有测试模型中表现最佳,使基于该模型的智能体在 ARC 上实现了近 50% 的准确率。

用AI自动设计智能体,数学提分25.9%,远超手工设计

如表 3 所示,研究者观察到元智能体搜索的性能与基线相比具有类似的优势。值得注意的是,与基线相比,本文的智能体在 GSM8K 和 GSM-Hard 上的准确率分别提高了 25.9% 和 13.2%。

用AI自动设计智能体,数学提分25.9%,远超手工设计

更令人惊讶的是,研究者观察到在数学领域发现的智能体可以迁移到到非数学领域(表 4)。

用AI自动设计智能体,数学提分25.9%,远超手工设计

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-24 11:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智造世界 创造美好|蚌埠:奋力打造产值超千亿元智能传感产业集聚区
...国传感谷已形成了以芯动联科、华鑫智感等为领衔的芯片设计,以北方微电子院、华鑫微纳等为领衔的晶圆制造,以希磁科技、禹芯半导体、太测临峰等为领衔的封装测试,以鸣楚新材、富博新材、
2025-09-15 12:47:00
聚焦智能驾驶赛道 爱芯元智携车载芯片与AI-ISP亮相2023智博会
华龙网讯(杨翔然)9月4日,2023中国国际智能产业博览会拉开帷幕。凭借在智能驾驶赛道上强大的芯片自研能力和落地成果,爱芯元智在2023智博会现场展出了系列自研车载芯片、开发套件
2023-09-05 21:02:00
金融实践领航!普元智能化低代码推进大中型企业研发变革
...,普元低代码平台开发的应用通过独有的优化技术和架构设计,应用性能提升30%以上,进一步加速企业数智化转型。在某大型商业银行,普元服务客户科技平台的长期迭代,从统一开发平台到云
2023-08-24 12:00:00
超讯通信签订1.71 亿元智算中心租赁服务协议
NO.1 浙江打造人工智能产业发展聚集地1月10日,《浙江省人民政府办公厅关于加快人工智能产业发展的指导意见》在浙江省人民政府官方网站公开披露,《意见》称浙江将做强人工智能产业链
2024-01-12 20:47:00
东杰智能科技集团股份有限公司8月6日传来好消息,该公司与株洲麦格米特电气有限责任公司签订了株洲智能化仓储项目工程合同,合同总金额1.16亿元人民币。该合同的签订将增强东杰智能在3
2023-08-07 06:30:00
普元智能化低代码开发平台发布,结合专有模型大幅提升软件生产力
7月6日,在“低代码+AI”产品战略发布会上,普元智能化低代码开发平台正式发布。平台整合普元自研专有模型,接入多款AI大模型能力,提供包含中间件、业务分析、应用开发、数据中台与业
2023-07-07 13:00:00
锚定全国标杆级智能网联新能源汽车产业集群 杭州10亿元智能网联产业发展基金将投向全产业链企业
近日,杭州智能网联产业发展基金战略合作协议签约仪式举行。现场,杭州市交通投资集团有限公司、杭州国舜股权投资有限公司、杭州高新金投控股集团有限公司、杭州富阳产业园运营集团有限公司、
2025-05-21 06:43:00
...实际情况,为其提供一站式整体解决方案,开展项目咨询设计、系统建设以及后续的技术支持。”此外,林志展还提到,公司也正在从制药生产端向研发端拓展,今年成立了中有信研究院,未来将以
2023-10-23 06:12:00
为什么劝你别买300元智能手表!看完秒懂
...而人们在此情况下对于健康和运动关注的逐步提高,全球智能手表/手环抗住了疫情、季节性需求疲软等多维度的影响,迎来了新的市场蓝海。在此局面下,为了全面的满足消费者与行业对于智能可
2023-01-26 14:17:00
更多关于科技的资讯:
中央音乐学院发布音乐脑机接口“央音一号”
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)音乐脑机接口“央音一号”,近日在中央音乐学院发布。中央音乐学院音乐人工智能与音乐信息科技系主任李小兵表示
2025-11-03 16:52:00
11.11提前抢!三联家电折扣让利,家电焕新正当时
鲁网11月3日讯随着11.11购物节的脚步日益临近,全国家电消费市场热度持续攀升,山东地区更是提前进入 “焕新倒计时”
2025-11-03 15:52:00
安徽牧羊人可持续时尚工业园项目开工 致力打造羊毛针织行业的佼佼者
大皖新闻讯 11月3日,安徽牧羊人可持续时尚工业园项目开工奠基仪式举行。项目建成后,将形成年产1000万件成衣,7200吨纺纱
2025-11-03 16:11:00
“景德镇鸡排哥”用一碗香辣鸡排撬动全网关注,这座千年瓷都再次被推上流量风口。草根摊主的日常片段在网络掀起打卡热潮,小众街巷因一条短视频迎来客流井喷
2025-11-03 12:25:00
乘AI之势,筑电子产业之基,CPCA Show Plus 2025 圆满闭幕,2026再相见!
2025年10月28日-30日,电子半导体产业创新发展大会暨国际电子电路(大湾区)展览会(以下简称:CPCA Show Plus)在深圳国际会展中心(宝安)盛大举办
2025-11-03 12:43:00
培育钻值得购买吗?超全选购攻略一篇搞定,附头部品牌深度测评
当越来越多的年轻人开始琢磨“如何高性价比的结个婚”,培育钻石凭借着价格优势、环保理念,正成为暗潮涌动的钻戒市场的新宠。据统计
2025-11-03 12:45:00
未来,AI有望打造口感逼真的植物蛋白
大河网讯 “人工智能(AI)正以前所未有的速度加速食品创新,它不仅能打造口感逼真的植物蛋白、通过文本生成全新食品配方,还能辅助设计个性化营养食品
2025-11-03 13:10:00
2025 年,Facebook 依托 Meta 生态的 29.8 亿全球月活用户(Statista 数据),仍是企业海外拓客的关键阵地
2025-11-03 12:46:00
彰显国际范科技范 第十七届厦门国际动漫节圆满落幕
角色扮演者在金海豚动漫游戏嘉年华现场打卡。厦门游戏企业展台带来多样互动活动。游路演活动现场,企业展开对接。(动漫节组委会 供图) 厦门网讯(文/厦门日报记者 林露虹 通讯员 洪慧敏 图/厦门日报记者 林铭鸿 除署名外)昨日傍晚
2025-11-03 08:55:00
报告:亲身体验“在地风物”成年轻人出行新理由
近日,中国旅游研究院(文化和旅游部数据中心)与马蜂窝联合召开“旅游目的地探索系列报告发布会”,发布该系列最新研究成果——《中国风物报告》
2025-11-03 09:28:00
几何之厦落子广州白云机场T3,以“文化坪效”重塑机场商业价值
(2025年10月30日,广州电) 今日,广州白云国际机场T3航站楼正式通航,与这座未来年客流量超千万级航空枢纽一同启幕的
2025-11-03 09:59:00
固安:“共享工厂”赋能特色产业集群高质量发展
河北新闻网讯(万倩、王智钢)走进汉旗电子科技(固安)有限公司的生产车间,企业新升级的智能化生产线正在高效运转。这里不仅是企业自身的生产基地
2025-11-03 10:00:00
梦启未来!2025年“兴火·燎原”创新马拉松公开赛火热报名中
创新驱动发展澎湃潮涌,“数字中国”建设如火如荼。年年相约,再启新程,2025年“兴火·燎原”创新马拉松公开赛正式开放报名
2025-11-03 10:29:00
阿宽食品以品类创新引领发展:从红油面皮到土豆泥泥面、魔芋系列
10月27日至28日,四川省预制食品产业高质量发展推进会在眉山市召开。当天,阿宽食品作为代表企业设展,重点展示了包括红油面皮
2025-11-03 10:29:00
浪潮计算机生态发展大会圆满举办
10月31日,以“潮涌水城 链动未来”为主题的浪潮计算机生态发展大会圆满举办。浪潮集团党委副书记、总经理刘继永,聊城市委副书记
2025-11-03 10:56:00