我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

类别：科技发布时间：2024-10-28 09:52:00 来源：新智元

【新智元导读】AI评估AI可靠吗？来自Meta、KAUST团队的最新研究中，提出了Agent-as-a-Judge框架，证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间，还提供丰富的中间反馈。

AI智能体，能否像人类一样有效地评估其他AI智能体？

对于AI智能体来说，评估决策路径一直是棘手的问题。

已有的评估方法，要么只关注结果，要么要要过多的人工完成。

为了解决这一问题，田渊栋、Jürgen Schmidhuber带领的团队提出了「Agent-as-a-Judge」框架。

简言之，让智能体来评估智能体系统，让AI审AI。

它不仅可以减少97%的成本和时间，还能提供丰富的中间反馈。

这是「LLM-as-a-Judge」框架的有机延伸，通过融入智能体特性，能够为整个任务解决过程提供中间反馈。

论文地址：https://arxiv.org/abs/2410.10934v1

研究人员提出了DevAI基准，为全新框架提供概念验证测试平台。包含55个真实的AI开发任务，带有详细的手动注释。

通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」框架。

总之，这项研究真正的变革之处在于：它提供了可靠的奖励信号，为可扩展的、自我改进的智能体系统铺平了道路。

「法官」智能体，击败大模型

现有评估方法，无法为智能体系统的中间任务解决阶段，提供足够的反馈。

另一方面，通过人工进行更好的评估，代价太大。

而智能体系统的思考方式，更像人类，通常是逐步完成，并且在内部经常使用类人的符号通信来解决问题。

因此，智能体也能够提供丰富的反馈，并关注完整的思考和行动轨迹。

「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」成本效益，还具备智能体特性，使其在整个过程中提供中间反馈。

下图展示了，大模型、智能体、人类作为评判者的示意图。

DevAI：自动化AI开发数据集

另外，在代码生成领域，基准测试的发展也落后于智能体系统的快速进步。

比如，HumanEval仅关注算法问题，而MBPP则处理简单的编程任务，但这两者都没有反映出开发者面临的最实际的挑战。

作为一个改进，SWE-Bench基准确实引入了GitHub现实问题，提供一种全新评估的方法。

不过，它仍需要关注自动修复任务的开发过程。

为了解决当前代码生成基准测试中的上述问题，研究人员引入了DevAI：AI开发者数据集，其中包含55个由专家注释者创建的真实世界综合AI应用开发任务。

DevAI结构是这样的：智能体系统首先接收用户查询以开始开发，然后根据AI系统满足需求的程度来评估它，其中偏好作为可选的、较为柔性的标准。

图3展示了DevAI任务的一个例子。

DevAI中的任务规模相对较小，但涵盖了常用的关键开发技术。

如图2所示，任务被标记并覆盖了AI的多个关键领域：监督学习、强化学习、计算机视觉、自然语言处理、生成模型等。

每个任务都是，可能交给研究工程师的真实世界问题，并降低了在这个基准上评估方法的计算成本。

接下来，研究人员将领先的开源代码生成智能体框架，应用于DevAI中的任务：MetaGPT、GPT-Pilot、OpenHands。

他们让人类评判者、大模型评判者、以及智能体评判者框架，来评估其性能。

结果如表1所示，MetaGPT最具成本效益（1.19美元），而OpenHands是最昂贵的（6.38美元）。

从开发时间来看，OpenHands完成任务平均耗时362.41秒，而GPT-Pilot耗时最长，为1622.38秒。

平均而言，使用这三者之一对DevAI进行完整评估，大约需要210.65美元和14小时才能完成。

Human-as-a-Juge：DevAI手动评估

为了确定DevAI的实用有效性，并准确估计当前最先进的智能体系统实际代码生成能力，研究人员手动评估三个AI开发者基线在DevAI中的应用。

如表2所示，（I）和（D）代表独立性能与考虑任务依赖性的性能。表示多个专家的进化，并且意味着评估使用白盒测试（允许访问生成的workspace、人类收集的轨迹和开源代码库）。

两种性能最好的方法（GPT-Pilot和OpenHands）可以满足大约29%的要求，但只有一项任务可以满足所有要求。

另外，在三位人类评估者之间，他们的个人评估存在大量分歧，说明了单一人类评估的不可靠性。

下图5总结了人类评估和共识评估的不匹配度。

---：智能体评估智能体

根据以往智能体设计的经验，并通过模仿人类评估过程，研究人员涉及了8个模块化交互组件，具体包括：

1 图像模块：构建一个图像，获取项目整个结构，包括文件、模块、依赖项，还可以将代码块分解为代码片段

2 定位模块：识别需求所引用的特定文件夹/文件

3 读取模块：超越了简单的文件解析，支持跨33种不同格式的多模态数据的读取和理解

4 搜索模块：提供了对代码的上下文理解，并且可以快速检索高度相关的代码片段，以及其背后细微差别

5 检索模块：从上下文中提取信息，识别轨迹中相关片段

6 查询模块：确定是否满足给定要求

7 记忆模块：存储历史判断信息，允许智能体基于过去记忆评估

8 规划模块：允许智能体根据当前状态和项目目标制定策略，并排序任务。

具体操作流程，如下图9所示。

下表3展示了，Agent-as-a-Judge在各项任务中始终优于 LLM-as-a-Judge，特别是在那些训在任务依赖关系的情况下。

评判开发者智能体，是一项类别不平衡的任务，满足要求的情况要比失败的情况少的多。

而判断转移和对齐率等指标可能会产生误导。比如，由于MetaGPT很少满足要求， LLM-as-a-Judge很容易将大多数情况识别为负面（在黑盒设置中达到84.15%）。

PR曲线通过平衡精确度和召回率，提供更清晰的性能衡量标准。

这表明，在某些情况下，Agent-as-a-Judge几乎可以取代人类评估员。

最后，在消融研究中，研究人员分析了各种组件的添加，对Agent-as-a-Judge判断OpenHands性能的影响。

参考资料：

https://x.com/tydsh/status/1846538154129375412

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-28 12:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于审判,新作,团队,成本,智能,评估的资讯：

“三聚焦”创新诉前调解的“昭阳模式”

...理，创新多元化纠纷调解的“昭阳模式”，既节约了司法审判资源，又便捷、省时、高效地为党分忧、为国尽责、为民奉献，达到了息诉平怨、促进社会和谐的目的。聚焦党委统筹齐推进，构建多元

2023-05-29 00:17:00

实时监测智能提醒常态通报精细管理

...事务，全部交由系统完成并展示。实现“五实时”，即对审判执行基础指标数据实时汇总，对系统运行情况采用“红黄蓝”颜色分类分级进行实时标记，对营商监管指标实时分析，对完成情况以优秀

2022-12-27 07:28:00

小案事不小小案不小办｜发挥调解作用降低诉讼成本

大众网记者吴宝杰菏泽报道近日，牡丹区法院道交审判团队审理了一起诉求营运损失案件，原告主张营运损失1600元，但鉴定费高达3000元，如何有效化解该案？案情回顾2024年1月2

2024-04-12 10:41:00

湖北：法院涉企案件平均审理时长缩短10天

...州市某种业公司破产案件管理人，与沙市区人民法院破产审判团队法官梁昊一道，到银行对破产企业账户办理解除冻结手续。“5分钟就办好了，这可太方便了！”他连声点赞。此前，沙市区

2023-08-09 22:36:00

“仓颉”为你服务 “夸父”帮你决策……AI新成果亮相世界人工

...家万户，帮助社会公众去解决文档破损的问题。首个司法审判垂直领域大模型启用人工智能加速赋能千行百业，记者在世界人工智能大会看到，人工智能在司法领域的应用范围不断拓展，国内首个司

2024-07-07 15:12:00

何以“出圈”？——武汉法院的“赢”商“密码”

...纷，2023年，成功调解案件11.37万余件。在审理环节，强化审判流程节点管理，最大程度压缩涉企案件办理周期。2023年，涉企案件结案时间同比缩短9.88%。在执行环节，重点

2024-03-30 21:02:00

扎实推进生态环境和资源保护执法司法工作

...罪工作情况的报告、最高人民法院关于人民法院环境资源审判工作情况的报告、最高人民检察院关于人民检察院生态环境和资源保护检察工作情况的报告进行专题询问。值得关注的是，这也是全国人

2023-10-23 03:32:00

重庆法院过去5年受理案件503.2万件

...建设，法院队伍更加过硬。持续加强司法能力建设，全国审判业务专家增至9人，24人获评全国模范法官、全国优秀法官、全国法院先进个人，19人获评全国法院办案标兵。16个法院和集体获

2023-01-15 12:52:00

智慧法院赋新能审判管理提质效

本文转自：青海法治报智慧法院赋新能审判管理提质效——海西州德令哈市人民法院智慧法院建设工作综述本版图片由德令哈市人民法院提供通讯员杨索非牙近年来，海西蒙古族藏族自治州德令

2023-05-31 08:49:00

更多关于科技的资讯：

曹县汉服“遇上”拼多多：95后的创业翻盘记

鲁网10月24日讯曹县，素有“中国汉服产业重镇”之称，曾见证无数小微创业者在行业竞争中艰难求索。对许多创业者而言，汉服市场度过初期蓝海阶段后

2025-10-24 14:29:00

突破光谱检测瓶颈！中国计量大学本科生团队研制高分辨率光谱仪

通讯员：吴瑞鹏何秋阳近日，第十九届“挑战杯”全国大学生课外学术科技作品竞赛正火热备赛中，全国高校参赛队伍蓄势待发。中国计量大学光学与电子科技学院本科生团队项目——“基于微反射镜阵列的高分辨率光谱仪”

2025-10-24 15:02:00

开普勒机器人登陆IROS 2025 以开放平台携手全球开发者

10月19日至25日，全球机器人领域两大顶级国际会议之一的2025年IEEE/RSJ智能机器人与系统国际会议（IROS 2025）在杭州隆重举行

2025-10-24 15:02:00

蓝月亮：用十二年为洁净艺术种下一棵“树”

10月23日，第十七届国际大学生暨青年艺术博览会（简称：大艺博）开幕。在武汉东部的中国光谷科技会展中心10000平方米的专业展馆内

2025-10-24 15:14:00

京东工业与南方电网供应链集团签署战略合作以数智技术驱动供应

10月20日，京东工业与南方电网供应链集团在广州正式签署战略合作协议，双方相关负责人出席签约仪式。此次合作标志着京东集团与南方电网在供应链领域的协作迈入全新阶段

2025-10-24 15:23:00

从OS到AI OS：荣耀MagicOS 10定义AI OS新

2025年10月23日，荣耀全球开发者大会暨AI终端生态大会在深圳坪山燕子湖国际会展中心隆重举行。本次大会系统阐释了MagicOS 10的品牌战略与发展路径

2025-10-24 15:32:00

最后窗口期！2025FHC上海环球食品展免费领票即将截止

2025FHC上海环球食品展已进入开幕倒计时！这场被誉为“全球食饮贸易超级接口”的盛会，已成为零售买家囤货、拓品的关键“战场”—20万㎡展出面积

2025-10-24 15:47:00

K90定价后引热议闪电降价，雷军：标准版12GB+512GB

2025年10月23日的红米K90发布会后，12GB+512GB版本原定价为3199元，但因用户反馈该版本与其他配置差价过大

2025-10-24 15:57:00

iPhone 17系列首批用户反应褪色？苹果官方客服回应

近日，部分苹果 iPhone 17 Pro 及 iPhone 17 Pro Max 的首批用户在社交平台反映，其设备遭遇了机身褪色问题

2025-10-24 15:59:00

阿里夸克AI眼镜开启预售体验者：轻若无物，稳如长在脸上“看

阿里巴巴首款自研AI眼镜——夸克AI眼镜24日0时在夸克智能设备天猫旗舰店开启预售。88VIP会员实际到手价为3699元

2025-10-24 16:35:00

石家庄市桥西区税务局精准服务新办纳税人

河北新闻网讯（梁轩轩）“原以为开业办税很繁琐，没想到这么简单！”近日，石家庄市桥西区律吕五金产品商行法人柴浩在桥西区税务局办税大厅完成税务申报后

2025-10-24 16:59:00

瑞众人寿河北分公司举办“养老规划线下体验日”活动

近日，瑞众人寿河北分公司在保定举办了2025年嘉年华客服节系列活动之“养老规划线下体验日”活动，通过创新融合中医药文化

2025-10-24 17:06:00

“尖货”频出！临安这里科技含量UpUpUp

是一场什么样的比赛技术“尖货”频出“硬核”创新不断近日，2025“海康创行・瓴创青山”智能物联青山湖科技城高层次人才创业大赛第二期

2025-10-24 17:07:00

邮储银行唐山市分行全面推广集成化的“智能云柜”系统

日前，邮储银行唐山市分行在其辖内网点全面推广集成化的“智能云柜”系统。该设备功能强大，整合了现金、非现金、凭证管理等逾400项个人业务

2025-10-24 17:08:00

行业领先全场景安装！海尔给“老铁门”装好了智能锁

近年来，智能门锁市场需求快速增长。数据显示，2025年上半年中国智能门锁全渠道销量达897万套，同比增长6.8%。市场火热的同时

2025-10-24 17:09:00

头条订阅服务

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%