• 我的订阅
  • 科技

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

类别:科技 发布时间:2024-10-30 09:47:00 来源:IT之家

IT之家 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。

而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。

项目简介

微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。

OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。

这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。

同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。

OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头,下一个发力的战场。AI接管人类电脑
2024-10-28 09:51:00
人生搜索引擎免费用,哈利波特“冥想盆”登GitHub热榜,支持中文
...个项目大量借鉴了之前就很火的“记忆助手软件”Rewind和微软的Windows Recall功能。但是,这两个emmm……Rewind要收费(基础版12美元/月)
2024-11-21 09:44:00
微软推出最新AI模型Muse:一键生成游戏画面
快科技2月20日消息,据报道,微软近日发布了一款名为Muse的生成式人工智能模型,宣称将彻底革新视频游戏场景的制作方式。作为微软在游戏开发领域的重要技术突破,Muse由机器学习研
2025-02-20 08:57:00
微软正研发面部照明AI技术:视频时可自动调整屏幕亮度
快科技8月14日消息,据媒体报道,微软正致力于一项创新性的面部照明技术研发,旨在视频会议场景中自动优化屏幕亮度,为用户带来前所未有的视觉体验。这项技术的核心在于智能调节,确保每位
2024-08-15 09:33:00
微软将建立世界上最大的基于图像的人工智能模型
9月10日消息,微软宣布将与数字病理学提供商Paige合作,建立世界上最大的基于图像的人工智能模型,用于识别癌症。新闻稿显示,该人工智能模型正在针对“前所未有的数据量”进行训练,
2023-09-10 09:46:00
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研究者共同发布了多模态大模型LLaVa(
2024-02-10 21:04:00
微软推出“智能副驾”(Copilot),您的人工智能日常助手
...的事物,并针对您的提问进行回答、创作或进行反馈。在微软看来,这就像是有一位智能副驾在帮助完成各种任务。一直以来,我们都在致力于开发由人工智能驱动的辅助功能,并将其带入到常用或
2023-09-22 20:49:00
AIPC,微软联想华为谁能扛大旗
...周路平沉寂多时的PC市场,迎来了久违的热闹。不久前,微软推出了号称“史上最强Windows PC”——Copilot+PC
2024-06-06 09:17:00
文本提取更方便!微软Win11截图工具更新:不用截图就能复制文本
快科技4月16日消息,今天,微软宣布为Canary和Dev频道的Windows 11 Insiders用户推出截图工具应用的全新更新
2025-04-16 12:53:00
更多关于科技的资讯:
破解“会解题不会应用”!陆家街中学跨学科课程托举少年科学梦
荆楚网(湖北日报网讯)(记者齐一璇 通讯员孟灿)“这个电路能模拟高铁身份核验,用串联开关完成‘刷证+人脸识别’的双重验证
2026-02-08 14:17:00
全民健步竞逐健康大奖 \
河北新闻网讯(路雨婷)为深入开展体重管理行动,倡导全民健康生活方式,河北省数理医学学会将于近日启动"聚福同行"团队挑战赛
2026-02-08 14:23:00
无人值守的驿站,可24小时自助取件;全自动的搬运机器人,能大幅提升分拣效率。这样的智能场景,会越来越多。2月8日,市邮政管理局对今年的行业工作做出安排
2026-02-08 16:01:00
山东移动小米合作省级首店落户济宁,一站式数智服务点亮民生生活
鲁网2月8日讯2月7日,记者在济宁红星东路核心商圈看到,山东移动济宁分公司携手小米打造的全省首家深度合作标杆门店——小米之家专卖店正式开业
2026-02-08 16:50:00
山东首店落地济宁!山东移动济宁分公司红星东路“小米之家”专卖店盛大开业
鲁网2月8日讯2月7日,山东移动济宁分公司红星东路“小米之家”专卖店正式盛大开业。这是全省范围内移动与小米品牌深度合作的首家标杆门店
2026-02-08 16:51:00
闽企自主研发的人形机器人在厦完成测试
“福智”机器人在思明未来科技园进行测试。(本组图/厦门日报记者 林铭鸿 摄)“福智”机器人将进入更多的服务场景。厦门网讯(厦门日报记者 林健华)2月6日上午
2026-02-08 08:26:00
影像记录|共享赋能,平乡童车驶上产业升级路
1月13日,邢台市斗途儿童玩具有限公司工人在赶制出口东南亚的电动玩具车。1月13日,在位于平乡县的邢台泰洲智造产业园,检测中心工作人员对河北博艺玩具有限公司送检的童车开展驱动系统
2026-02-08 08:35:00
近日,工业和信息化部公布2025年度中国消费名品名单,全国共276个品牌入选。其中,浙江29个品牌入选,分别为企业品牌18个
2026-02-08 07:47:00
近日,市场监管总局和国家网信办联合发布《网络交易平台规则监督管理办法》(以下简称《办法》),明确禁止平台利用大数据“杀熟”
2026-02-08 00:15:00
潮起章丘,一城所向:章丘世茂广场盛大开业,开启城市商业新主场
鲁网2月7日讯2026年2月6日,中国济南——由章丘控股集团与世茂集团商业地产商娱公司(以下简称世茂商娱)联袂打造的章丘世茂广场盛大开业
2026-02-07 16:32:00
“人机协同”新模式进楼宇,顺丰同城×顺丰速运机器人配送落地南昌双子塔
近日,顺丰同城与顺丰速运携手推出楼宇机器人末端配送新业务,于2月5日率先在江西南昌标志性建筑之一南昌双子塔投入运营。双方聚焦商务楼宇等高层建筑的末端配送难点
2026-02-07 16:48:00
中国科大建立磁各向异性的普适理论
大皖新闻讯 2月7日,大皖新闻记者从中国科学技术大学获悉,该校牛谦教授与高阳教授团队在磁各向异性理论研究中取得突破。研究团队基于自旋轨道耦合的微扰展开以及自旋群的群表示
2026-02-07 12:48:00
厦门网讯(厦门日报记者 应洁)马年新春将至,集美区年味渐浓。2月6日,由集美区商务局主办的“2026集美欢乐购”新春消费券正式“开抢”
2026-02-07 08:49:00
老人也能轻松操作!海尔智家APP“AI语音”让服务零门槛
智能家电功能日益丰富,售后环节的复杂化却成了很多用户的“数字门槛”。在智慧家庭战略指导下,海尔智家APP推出“AI语音”功能
2026-02-07 10:07:00