• 我的订阅
  • 科技

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

类别:科技 发布时间:2024-11-26 09:43:00 来源:量子位

Claude操控电脑,究竟可以做到什么程度?

新加坡国立大学团队在20多个场景下做了全面测试,其中最引人瞩目的是:AI可以自动玩手游清日常任务了!

研究中选用了米哈游《崩坏:星穹铁道》,可以跟它说”帮我完成今天的模拟宇宙”,然后,Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数:

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

甚至还可以启动自动战斗、等待战斗结束后退出,这一套组合操作简直行云流水……

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

而且注意哦,这不仅是传统游戏外挂那样的机械操作,Claude还能智能理解游戏规则和目标,根据界面上不同的任务进行调整。

这下好了,人类只能在一旁干瞪眼了。

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

除了更多测试场景外,论文还提出了一个开箱即用的自动GUI框架。

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

有网友看到视频后评论说:以后我去上学的时候,就可以让Claude帮我玩每日任务了。

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

还可以自动完成很多办公任务

Claude Computer Use的潜能还远远没有被人类发掘——

研究团队还测试了很多日常办公场景下它的性能:

1.网页搜索

它可以在Amazon和Apple官方网站上成功完成下单购物的任务,选择颜色配置、填写地址都轻松拿捏。

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

2.工作流程

模型还成功完成了在Apple Music添加歌曲、编辑Excel数据、在App Store安装应用等自动任务。

虽然界面设计和跳转逻辑更加复杂,它还是能智能地理解任务的最终目标,真是一个成熟的好AI(欣慰)!

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

3..办公生产力软件

此外,它还可以在Outook中转发邮件、调整Word布局、设置PowerPoint背景设置和插入三角形形状等等,这下真的可以大大增强生产力了(AI无用论 -1)。

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

4.还可以玩其他游戏

除了《崩坏:星穹铁道》,模型也可以自动玩《炉石传说》,包括创建和重命名牌组、使用英雄技能等等。

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

Claude Computer Use API + 自动化GUI框架

你可能会好奇,强如Claude Computer Use,是怎么做到自动完成任务的呢?

下面我们就一起来看看背后的框架设计——

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

具体来说,团队基于Claude Computer Use的API设计了一个自动化GUI框架,主要分为以下6个部分:

1.系统提示

Claude Computer Use的系统提示包括环境概述、可用函数和参数描述。用户可以通过编写

块来调用这些函数,例如计算机交互、Bash Shel命令和文件编辑工具。

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

2.状态观察

Claude Computer Use通过实时截图观察环境,不依赖元数据或HTML。每个时间步长过后,模型都会保留历史截图,帮助生成下一步的动作。

3.推理范式

Claude Computer Use采用了一种推理-行动范式,通过观察环境来决定下一步的动作。这种范式可以让模型在高度动态的GUI环境中生成更可靠的动作。

4.工具使用

Claude Computer Use提供了三种工具:计算机工具、文本编辑器工具和Bash工具,它们可以帮助模型与计算机进行交互,执行各种任务。

5.GUI动作空间

GUI动作空间内置了所有原始的鼠标和键盘动作,如鼠标移动、点击、按键组合、拖放和截图等。模型会根据需要自行组合。

6.历史视觉上下文维护

模型在每个时间步长都会保留历史截图,以辅助动作生成过程。具体公式如下:

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

性能测试

为了更加广泛地测试Claude Computer Use和GUI框架联合后的性能效果,团队还设计了详尽的测试实验,包括

1.数据收集:实验设计包括在Windows和macOS上通过ComputerUse Out-of-the-Box平台进行评估。评估任务覆盖了广泛的应用领域,包括网页搜索、工作流程、办公生产力软件和视频游戏等。

2.样本选择:选择了20个任务,涵盖12个软件或网站,分为以下三个领域:网页搜索、工作流程、办公生产力和视频游戏。具体的任务可以查看下表:

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

3.参数配置:系统分辦率设置为Windows的(1366,768)和macOS的(1344,756)。过程中还加入了人类评审和评估用于监控和审查过程,确保任务的顺利完成。

虽然Claude Computer Use在之前的例子中表现都非常厉害,但当网页或软件的页面过于复杂时,模型也出现了一些失败案例:

1.精细网页操作失败:在Fox Sports订阅任务中失败,错误原因主要在于模型没有正确导航到”Account”选项卡。

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

2.办公软件失败:在Word中更新简历模板、和在PPT中插入编号符号两个任务中失败,错误原因在于模型未能准确选择和定位文本字段。

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

不过整体来说,Claude Computer Use已经很棒了,而且这功能也刚刚发布没多久,未来可期!

团队还公开了所有测试用例的具体信息,感兴趣的小伙伴可以点GitHub项目链接查看更多消息~

Claude老师,以后我的PPT和Steam就拜托你了(bushi)

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控

参考资料:https://arxiv.org/pdf/2411.10323https://github.com/showlab/computer_use_ootb

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...科幻中的贾维斯,已经离我们不远了。Claude 3.5接管人类电脑掀起了人机交互全新范式,爆料称谷歌同类Project Jarvis预计年底亮相
2024-10-28 09:51:00
o1带火的CoT到底行不行?新论文引发了论战
To CoT or not to CoT?OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链(CoT)的兴趣
2024-09-21 09:37:00
Claude 3.5深夜觉醒,学会模仿人类用电脑!编程干翻o1,Agent一夜变天
...信息填表。AI推理已至瓶颈,下一个爆破点,就是AI操作电脑!Claude 3.5深夜迎来重磅升级!不出所料,Anthropic AI这周终于有了大动作——首发Claude 3
2024-10-23 09:55:00
安兔兔评测pc版正式发布,欢迎大家下载体验
...UX(用户体验)四大项,通过模拟多种复杂场景最终得到电脑性能评分。另外,除了传统的x86-64架构之外,安兔兔评测PC版还支持Arm64架构的新AIPC,两个版本评测体系完全
2024-10-04 00:33:00
智谱开源GLM-PC 基座模型CogAgent-9B,让 AI 智能体“看懂”屏幕
...,CogAgent 可广泛应用于各类基于 GUI 交互的场景,如个人电脑、手机、车机设备等。相较于 2023 年 12 月开源的第一版 CogAgent 模型
2024-12-27 09:20:00
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...《给小学数学题加句「废话」,OpenAI o1 就翻车了,苹果新论文质疑 AI 推理能力》)。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训
2024-10-23 12:05:00
一个弹窗整懵Claude,瞬间玩不转电脑了
纳尼?AI Agent容易受到弹幕影响!甚至比人类更容易。事情是这样的,3位来自斯坦福、港大的研究人员发现:人类有时会被弹窗分散注意力,但对于AI Agent(包括当前王牌选手C
2024-11-09 09:52:00
谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏
...提供迈向 AGI 所需的广度和通用性。下图为 Imagen 3 生成的电脑游戏图像,提示词为「一张电脑游戏图片,展示了一个粗糙的石洞或矿井内部场景。观看者的位置是第三人称视角
2024-12-06 09:53:00
OpenAI劲敌甩大招!Claude 3.5模型升级,能力反超GPT-4o,训练AI自己操控电脑
...网友直呼,“像魔术,AI Agent真的来了。”AI自己“玩”电脑这项能力的亮相,似乎又把AI大模型“卷”到了新高度。之前各大厂商为了提升模型逻辑推理能力,可谓是下了不少功夫
2024-10-23 14:27:00
更多关于科技的资讯:
聚焦2025中国国际数字经济博览会·访谈|沈昌祥:发挥优势,不断筑牢人工智能安全底座
发挥优势,不断筑牢人工智能安全底座——访中国工程院院士沈昌祥中国工程院院士沈昌祥。 河北日报记者 李东宇摄2025中国国际数字经济博览会的主题为“可信数据赋能产业发展”
2025-10-18 08:25:00
10月17日,2025中国国际数字经济博览会,一款AI绘画机器人精准识别人脸神态,快速绘画出人脸素描,被这只机械臂画得心服口服。(摄制:苏畅、白中豪、朱泊宇)
2025-10-18 08:27:00
深化开发利用,让高质量数据“动”起来——2025中国国际数字经济博览会探新之一机器人亮绝活、大模型总动员、虚拟空间沉浸体验……10月17日
2025-10-18 08:37:00
厦门网讯(厦门日报记者 薛尧)苹果iPhone17 Air昨日正式开启预售,这款取消实体卡槽、仅支持eSIM(嵌入式虚拟SIM卡)的新机
2025-10-18 08:59:00
近日,建设银行正式启动“‘享趣’玩·惠游中华”信用卡活动,为客户提供涵盖景区票务、特色餐饮、文创消费等多方面的用卡优惠
2025-10-18 10:41:00
海信贾少谦:AI重塑企业管理模式,打法要快,生意要慢
10月17日,第十五届中国管理·全球论坛暨首届“中国企业管理最佳实践榜”发布盛典在青岛举办。作为C50+2025年度轮值企业家召集人
2025-10-18 10:57:00
竹溪县数字经济产业链招商签约超亿元
十堰广电讯(全媒体记者 白孟尧 通讯员 付延峰)竞逐数字经济新赛道,孕育产业链招商硕果。10月18日,湖北十堰竹溪县竹溪数字经济产业链招商暨2025“国芯一号”生态合作伙伴大会在桃花岛夯土小镇举行
2025-10-18 13:47:00
东南网龙岩10月17日讯(通讯员 陈碧霞)近日,工行龙岩漳平支行组织青年志愿者主动深入当地企业园区,精心开展集“个人金融产品精准营销”与“金融反诈知识普及”于一体的“一站式”综合服务活动
2025-10-18 16:32:00
烟台银行荣登2025上半年度高质量数字化转型十大典型案例榜单
近日,由中国信通院主办的以“洞见十五五”为主题的2025数字生态发展大会暨“铸基计划”年中会议在北京盛大召开。会上,烟台银行联合长亮科技申报的《DataOps赋能烟台银行建设高质量智能数据中枢》案例
2025-10-18 17:45:00
视源股份广交会展示AI全场景创新实力,机器人机器人系列产品亮相成焦点
在第138届中国进出口商品交易会(广交会)上,视源股份以“AI+未来教育、AI+企业服务、AI+机器人、AI+生活”为主线
2025-10-18 18:18:00
本土智造重磅升级,医科达将八度亮相进博
第八届中国国际进口博览会(进博会)进入倒计时,作为八年“全勤生”,全球精准放疗先锋医科达将以“共建本土生态,共筑抗癌未来”为主题
2025-10-18 18:42:00
不用等到20号了!现在来京东11.11 iPhone 17 Pro系列可领300元惊喜券
每年11.11对于广大果粉而言无疑是换新的绝佳时机,无论是追求最新款还是预算有限入手上一代机型都能享受到极具吸引力的价格
2025-10-18 18:43:00
破局重构引领前行,联众优车持续锻造二手车服务新基建
近年来,在国内汽车消费结构持续升级的背景下,二手车市场已成为拉动汽车消费的重要引擎。特别是随着国家一系列利好政策的推出
2025-10-18 18:43:00
从龙虎到鹤年堂 京东七鲜十月品牌日再造下一个老字号联名爆款
随着“养生年轻化”与“即食化养生”成为主流,当代消费者愈发青睐“轻松养生、即时进补”。如何让传统养生智慧通过自有品牌融入日常
2025-10-18 18:43:00
全时段畅飞 全年不限次:长龙航空“365畅飞卡”10月19日在京东旅行限时开售
国内随心飞历史新低,全时段畅飞、全年不限次!在推出海航随心飞,并创下2天超25万用户下单、2亿销售额的纪录之后,京东11
2025-10-18 18:45:00