• 我的订阅
  • 科技

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

类别:科技 发布时间:2024-10-30 09:47:00 来源:IT之家

IT之家 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。

而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。

项目简介

微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。

OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。

这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。

同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。

OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头,下一个发力的战场。AI接管人类电脑
2024-10-28 09:51:00
人生搜索引擎免费用,哈利波特“冥想盆”登GitHub热榜,支持中文
...个项目大量借鉴了之前就很火的“记忆助手软件”Rewind和微软的Windows Recall功能。但是,这两个emmm……Rewind要收费(基础版12美元/月)
2024-11-21 09:44:00
微软推出最新AI模型Muse:一键生成游戏画面
快科技2月20日消息,据报道,微软近日发布了一款名为Muse的生成式人工智能模型,宣称将彻底革新视频游戏场景的制作方式。作为微软在游戏开发领域的重要技术突破,Muse由机器学习研
2025-02-20 08:57:00
微软正研发面部照明AI技术:视频时可自动调整屏幕亮度
快科技8月14日消息,据媒体报道,微软正致力于一项创新性的面部照明技术研发,旨在视频会议场景中自动优化屏幕亮度,为用户带来前所未有的视觉体验。这项技术的核心在于智能调节,确保每位
2024-08-15 09:33:00
微软将建立世界上最大的基于图像的人工智能模型
9月10日消息,微软宣布将与数字病理学提供商Paige合作,建立世界上最大的基于图像的人工智能模型,用于识别癌症。新闻稿显示,该人工智能模型正在针对“前所未有的数据量”进行训练,
2023-09-10 09:46:00
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研究者共同发布了多模态大模型LLaVa(
2024-02-10 21:04:00
微软推出“智能副驾”(Copilot),您的人工智能日常助手
...的事物,并针对您的提问进行回答、创作或进行反馈。在微软看来,这就像是有一位智能副驾在帮助完成各种任务。一直以来,我们都在致力于开发由人工智能驱动的辅助功能,并将其带入到常用或
2023-09-22 20:49:00
AIPC,微软联想华为谁能扛大旗
...周路平沉寂多时的PC市场,迎来了久违的热闹。不久前,微软推出了号称“史上最强Windows PC”——Copilot+PC
2024-06-06 09:17:00
文本提取更方便!微软Win11截图工具更新:不用截图就能复制文本
快科技4月16日消息,今天,微软宣布为Canary和Dev频道的Windows 11 Insiders用户推出截图工具应用的全新更新
2025-04-16 12:53:00
更多关于科技的资讯:
近日,长春机场“电梯无线报警系统”科创项目顺利投入使用。该系统融合4G无线通信、移动值守与智能终端管理等先进技术,实现了对传统电梯紧急报警系统的全面智能化升级
2025-11-13 13:34:00
海尔L+洗衣机在泰国售价6万泰铢高端增速最快
海尔智家以“全球化”为核心战略,依托技术创新推动高端产品出海落地,L+洗衣机正是这一战略的重要落地成果。该产品率先在中国高端市场获得成功
2025-11-13 10:35:00
央视二套《消费主张》强推!从一扇门到全屋智能,王力安防重新定义家居刚需
近日,“双十一”消费季热潮正劲,亿万消费者聚焦高品质家居好物。央视二套《消费主张》于11月11日晚黄金时段播出《聚焦双十一
2025-11-13 11:14:00
给“狂飙”的AI套上伦理的“缰绳”全球首个系统级伦理垂域大模型“问道”发布南报网讯(记者何洁通讯员孙艳)让AI也能像学者一样
2025-11-13 08:06:00
第八届进博会搭建国际合作桥梁——汉诺金携手湖南卫视快乐购共促“健康中国”
近日,第八届中国国际进口博览会(进博会)在上海国家会展中心隆重开幕。作为全球关注的年度经贸盛会,进博会汇聚来自世界各地的顶尖企业与行业代表
2025-11-13 08:57:00
本报讯(全媒体记者左阳天)指尖滑动屏幕,货物飞速流转,一场持续了一个多月的年度消费盛宴,正悄然重塑江西消费者的购物车与江西商家的生产线
2025-11-13 06:45:00
新闻纵深|“人机共生”让绿钢更绿
河钢集团石钢公司五十六个智能模型构建“数字工厂”“人机共生”让绿钢更绿阅读提示订单排产从48小时压缩到30分钟,钢水样品2分40秒完成27种元素分析
2025-11-12 08:14:00
厦门网讯(厦门日报记者 沈彦彦)11月11日,京东发布2025年“双11”购物狂欢节(以下简称“双11”)福建消费热点相关情况
2025-11-12 08:22:00
厦门网讯(厦门日报记者 沈彦彦)昨日,抖音美洋官方旗舰店的直播间里热闹非凡,主播“上链接”话音刚落,新品针织衫链接的下单人数瞬间破百
2025-11-12 08:22:00
厦门网讯 (厦门日报记者 邬秀君)顶峰人文影视艺术会客厅项目签约金额20亿元;同文文化艺术影视科技街区项目签约金额16亿元
2025-11-12 08:22:00
厦门网讯 (文/厦门日报记者 谭心怡)在思明区禾祥西路,一个红色小窗口内闪着金元宝形的灯,客人抽完签、摇响铃铛、再把签递进窗口——冰激凌就会从里面递出
2025-11-12 08:22:00
厦门软件园企业:科技赋能 打开光影新视野
借助XR虚拟拍摄技术,可实现场景自由切换。图为厦门火炬元宇宙(XR)公共技术服务平台。(甚妙视觉 供图)厦门网讯 (厦门日报记者 林露虹 通讯员 管轩 雷飏)光影闪耀鹭岛
2025-11-12 08:22:00
●席恺前不久,星巴克以40亿美元出售中国业务60%股权。消息一传出,众人的目光很快聚焦在瑞幸咖啡上:这个总部设在厦门的咖啡品牌
2025-11-12 08:22:00
鲁网11月11日讯(记者 赵洪斌 吴美琳)11月11日,德州扒鸡®美食城三八路店重装开业,焕新启幕,美耀州城!溯源四十载
2025-11-12 08:43:00
立冬时节,寒意逐渐加重。11月7日,记者走进沧州热力有限公司热网调度中心,只见一块覆盖整面墙壁的智慧大屏格外醒目,沧州智慧热力管理平台正高效运行
2025-11-12 08:57:00