• 我的订阅
  • 科技

智谱开源GLM-PC 基座模型CogAgent-9B,让 AI 智能体“看懂”屏幕

类别:科技 发布时间:2024-12-27 09:20:00 来源:IT之家

IT之家 12 月 27 日消息,智谱技术团队公众号昨日(12 月 26 日)发布博文,宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于智能体(Agent)任务。

IT之家注:该模型仅需屏幕截图作为输入(无需 HTML 等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的 GUI 操作。

得益于屏幕截图和 GUI 操作的普适性,CogAgent 可广泛应用于各类基于 GUI 交互的场景,如个人电脑、手机、车机设备等。

智谱开源GLM-PC 基座模型CogAgent-9B,让 AI 智能体“看懂”屏幕

相较于 2023 年 12 月开源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升,并支持中英文双语的屏幕截图和语言交互。

CogAgent 的输入仅包含三部分:用户的自然语言指令、已执行历史动作记录和 GUI 截图,无需任何文本形式表征的布局信息或附加元素标签(set of marks)信息。

智谱开源GLM-PC 基座模型CogAgent-9B,让 AI 智能体“看懂”屏幕

其输出涵盖以下四个方面:

思考过程(Status & Plan): CogAgent 显式输出理解 GUI 截图和决定下一步操作的思考过程,包括状态(Status)和计划(Plan)两部分,输出内容可通过参数控制。

下一步动作的自然语言描述(Action):自然语言形式的动作描述将被加入历史操作记录,便于模型理解已执行的动作步骤。

下一步动作的结构化描述(Grounded Operation): CogAgent 以类似函数调用的形式,结构化地描述下一步操作及其参数,便于端侧应用解析并执行模型输出。其动作空间包含 GUI 操作(基础动作,如左键单击、文本输入等)和拟人行为(高级动作,如应用启动、调用语言模型等)两类。

下一步动作的敏感性判断:动作分为“一般操作”和“敏感操作”两类,后者指可能带来难以挽回后果的动作,例如在“发送邮件”任务中点击“发送”按钮。

CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等数据集上进行了测试,并与 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型进行了比较。

智谱开源GLM-PC 基座模型CogAgent-9B,让 AI 智能体“看懂”屏幕

结果显示,CogAgent 在多个数据集上取得了领先的结果,证明了其在 GUI Agent 领域强大的性能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-27 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

蜜度CTO刘益东:AI技术发展的成果要让普通人都能理解 | 最前线
...厂商跳脱出Transformer的框架,去做创新。发布自研的行业基座大模型,是今年蜜度的目标。刘益东觉得,自研行业基座大模型是蜜度的方向:“下一个创造风口的可能就不是Open
2023-07-13 14:00:00
你的下一个美少女偶像何必是真人 娱乐圈AIGC要内测了
...在6月26日启动技术测试,其核心产品——图形化智能社交基座美踏元宇宙也即将开放首轮用户内测。官方信息显示,鹦鹉人和美踏元宇宙是丝芭传媒AI技术应用产品矩阵中,率先进入内测阶段
2024-06-25 20:51:00
昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1,重塑AI短剧行业格局
...创作的视频生成模型SkyReels-V1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1
2025-02-18 11:13:00
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...单,GPT-4 Turbo在各项评测中均获最佳表现,智谱AI新一代基座大模型GLM-4紧随其后,排名第二。上海人工智能实验室在榜单发布同时表示
2024-02-04 14:00:00
「实在智能」完成近2亿元C轮融资,推出基于自研大模型的Agent智能体 | 36氪首发
...。出于B端客户数据安全保护的需求,实在智能选择自研基座大模型。2023年8月16日,公司发布“塔斯”(TARS)垂直大语言模型
2023-12-18 18:53:00
萤石多款智能家居新品发布,引入AI大模型及类汽车三电系统
...食物地方),产品共有两个版本,其中旗舰版内置了充电基座,没电可以自动回到基座充电,并且附赠逗猫棒,而标准版则是简易收纳基座
2024-04-07 15:41:00
成研院联合中储粮成都储藏研究院发布“网上问粮”语言基座大模型
...究院成功发布“黍稷”储粮大模型——“网上问粮”语言基座大模型。中国移动(成都)产业研究院副总经理赵艳琦出席大会并参与发布仪式。“网上问粮”语言基座大模型以AI大模型前沿科技为
2024-11-09 14:17:00
李飞飞团队“50美元”复现DeepSeek R1?真相是…
...在已具备强大能力的开源基础模型之上。▌通义模型的“基座”作用根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其
2025-02-07 06:25:00
...见缺陷。三个多月后,该模型进化为能应对复杂工况的“基座大模型”。“有了这个‘基座’,就像有了一个万能模板。”王朝阳说,针对不同规格的光伏组件,只需稍作调整,就能快速生成专用检
2025-08-12 08:46:00
更多关于科技的资讯:
鲁网11月19日讯近日,由建行日照分行青年员工朱杰主导研发的“机箱及计算机主机及支架装置及具有其的显示器”两项实用新型专利
2025-11-19 11:14:00
圆满收官!2025年第二届中关村具身智能机器人应用大赛落幕
中国网讯 11月17-18日,在北京中关村国家自主创新示范区展示中心,以“具身引智、应用未来”为主题的2025年第二届中关村具身智能机器人应用大赛圆满收官
2025-11-19 11:24:00
“箱包之都”牵手中国大集,共筑数字信任新生态
鲁网11月19日讯 (记者 吴艳萍)在数字经济与实体经济深度融合的背景下,11月18日,中国大集与白沟箱包产业带W2W战略合作签约仪式举行
2025-11-19 11:52:00
大华股份亮相中国国际电力设备及技术展览会
11月18日,第三十二届中国国际电力设备及技术展览会在上海新国际博览中心盛大启幕。大华股份携子公司华感科技、华消科技重磅参展
2025-11-19 13:58:00
2025咪咕生态大会启幕,“微短剧 +” 跨界融合共筑内容新生态
11月18日,以“焕彩同行,价值共生”为主题的2025咪咕生态大会在京举行。现场,咪咕数字传媒有限公司携手合作伙伴,聚焦微短剧生态发展
2025-11-19 08:26:00
奋进的河北·“十四五”答卷丨身边的“十四五”(三):生产线上的产学研
整理/河北日报记者 王璐丹 制图/孙 涛从破解脑蛋白药物的“黑匣子”,到打破氢能隔膜的进口依赖,再到让机器人在高空“举重若轻”……近年来
2025-11-19 08:30:00
厦门网讯(厦门日报记者 应洁)美妆等零售新业态增长迅速、打造集美咖啡季品牌、持续开展“集美欢乐购”促消费活动……昨日,集美区相关领导接听市12345政务热线
2025-11-19 08:46:00
近日,阿里巴巴正式宣布启动“千问”项目,同时,千问APP公测版上线。千问APP公测版凭借免费以及与各类生活场景生态的结合
2025-11-19 09:39:00
社交平台如何兼顾用户的理性与感性需求?米连科技给出答案
在当代婚恋市场,一个明显的趋势正在形成:年轻人越来越追求“理性择偶”,而经历过人生起伏的中年人则更看重“情感共鸣”。这两种看似不同的需求
2025-11-19 10:27:00
“深海一号” 首次搭载青岛联通船载5G专网融合通信系统 系统创新性可靠性在深远海极区场景得到全面验证
鲁网11月19日讯近期,青岛联通船载5G专网融合通信系统首次搭载于“深海一号”科考船赴深海大洋极区,“大流量、低时延、超稳定”的卓越性能在低温
2025-11-19 09:29:00
11月17日从中北高新区获悉,山西中北测控科技有限公司自主研制生产的加装测量存储系统圆满完成航空航天领域使用场景验证,各项性能指标均达到行业领先水平
2025-11-18 08:20:00
烟台工程职业技术学院成功入选国家级“IITC工信人才AI实训云平台”首批应用院校
鲁网11月18日讯近日,工业和信息化部人才交流中心公布了“IITC工信人才AI实训云平台”首批应用院校名单,烟台工程职业技术学院凭借在数字化基础设施与产教融合方面的深厚积淀
2025-11-18 15:49:00
OPPO Reno15 系列正式发布,潮流实况玩法“超出圈”
2025年11月17日,成都——OPPO正式发布全新一代Reno15系列手机。作为潮流与实况照片引领者,Reno15系列行业首发全息光刻工艺
2025-11-18 15:54:00
中国工程院院士邬贺铨、郑纬民点赞阿里千问APP:坚持走专业严谨的路线 期待中国AI走向世界舞台中心
11月18日消息,阿里巴巴千问APP近日开启公测,接入全球性能第一的开源模型Qwen3并免费开放。两位中国工程院院士就此分别接受了媒体采访
2025-11-18 16:57:00