• 我的订阅
  • 科技

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

类别:科技 发布时间:2024-10-30 09:47:00 来源:IT之家

IT之家 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。

而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。

项目简介

微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。

OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。

这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。

同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。

OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头,下一个发力的战场。AI接管人类电脑
2024-10-28 09:51:00
人生搜索引擎免费用,哈利波特“冥想盆”登GitHub热榜,支持中文
...个项目大量借鉴了之前就很火的“记忆助手软件”Rewind和微软的Windows Recall功能。但是,这两个emmm……Rewind要收费(基础版12美元/月)
2024-11-21 09:44:00
微软推出最新AI模型Muse:一键生成游戏画面
快科技2月20日消息,据报道,微软近日发布了一款名为Muse的生成式人工智能模型,宣称将彻底革新视频游戏场景的制作方式。作为微软在游戏开发领域的重要技术突破,Muse由机器学习研
2025-02-20 08:57:00
微软正研发面部照明AI技术:视频时可自动调整屏幕亮度
快科技8月14日消息,据媒体报道,微软正致力于一项创新性的面部照明技术研发,旨在视频会议场景中自动优化屏幕亮度,为用户带来前所未有的视觉体验。这项技术的核心在于智能调节,确保每位
2024-08-15 09:33:00
微软将建立世界上最大的基于图像的人工智能模型
9月10日消息,微软宣布将与数字病理学提供商Paige合作,建立世界上最大的基于图像的人工智能模型,用于识别癌症。新闻稿显示,该人工智能模型正在针对“前所未有的数据量”进行训练,
2023-09-10 09:46:00
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研究者共同发布了多模态大模型LLaVa(
2024-02-10 21:04:00
微软推出“智能副驾”(Copilot),您的人工智能日常助手
...的事物,并针对您的提问进行回答、创作或进行反馈。在微软看来,这就像是有一位智能副驾在帮助完成各种任务。一直以来,我们都在致力于开发由人工智能驱动的辅助功能,并将其带入到常用或
2023-09-22 20:49:00
AIPC,微软联想华为谁能扛大旗
...周路平沉寂多时的PC市场,迎来了久违的热闹。不久前,微软推出了号称“史上最强Windows PC”——Copilot+PC
2024-06-06 09:17:00
文本提取更方便!微软Win11截图工具更新:不用截图就能复制文本
快科技4月16日消息,今天,微软宣布为Canary和Dev频道的Windows 11 Insiders用户推出截图工具应用的全新更新
2025-04-16 12:53:00
更多关于科技的资讯:
厦门网讯(厦门日报记者 林露虹 通讯员 管轩 雷飏)集护眼、通透、高刷新率于一体的天马 “天工屏”;“全球最窄四等边设计”的手机屏幕……今年以来
2025-10-10 08:28:00
2025河北国际工业设计周活动观察:全球智慧赋能未来智造
全球智慧赋能未来智造——2025河北国际工业设计周活动观察9月20日,2025河北国际工业设计周主会场活动在雄安新区举行
2025-10-10 08:40:00
工信部日前公布首批制造业数字化转型促进中心建设主体名单,太原福莱瑞达物流设备科技有限公司入选。制造业数字化转型促进中心是国家落实产业数字化战略的核心公共服务载体
2025-10-10 08:42:00
10月9日,从太原第二热电厂获悉,为全力保障太原市冬季供热安全稳定,持续提升供热服务质效,太原二热秉持“早谋划、早部署
2025-10-10 08:43:00
齐鲁晚报·齐鲁壹点客户端 李孟霏在刚刚过去的国庆中秋“双节”,山东移动威海乳山分公司移动社区营销团队实现品牌口碑与业务发展的双赢
2025-10-10 11:07:00
优优绿能(301590)成立于2015年,是国内直流充电桩模块领军企业之一,2024年在国内充电模块市占率达16%,位居行业第二
2025-10-10 23:06:00
恒润达生信披“迷雾”:“消失”的研发总监与首席科学家?
除研发核心人员离职或在外创办同行业企业外,上海恒润达生生物科技股份有限公司(下称“恒润达生”)招股书对研发团队人员信披的真实性
2025-10-10 23:06:00
互联网贷款普及后,不少初次接触的用户常因平台选择难、流程不熟悉犯愁。其实只要按步骤操作执行,安全又高效,下面由榕易有钱为大家梳理了几项关键步骤
2025-10-10 11:34:00
从志愿翻译到时装新星 河南姑娘在非洲书写青春与梦想
大河网讯 非洲大陆,机遇与挑战并存。越来越多的中国人选择在这里扎根创业,为当地发展注入新活力。毕业于河南工业大学的何方方便是其中之一
2025-10-10 12:11:00
姜杰秀:心中有梦,创业有方,用执着与努力让喜龙果出海
鲁网10月10日讯“我父亲就是做农副产品加工的,从小受父亲的熏陶,我对农副产品加工就有别样的情愫。于是,我就在农副产品加工上有了梦想
2025-10-10 13:56:00
中新经纬10月10日电 “市说新语”微信号10日消息,近日,国家市场监管总局(国家标准委)批准发布一批重要国家标准,涉及助老扶幼
2025-10-10 14:06:00
解锁工业自动化密码,威图与易盼2025IAS硬核破圈瞬间
"新质驱动、高端引领、数智赋能" ,2025中国国际工业博览会聚焦新工业新经济,旨在拉开加快构建一流产业生态,开启智能制造新时代的帷幕
2025-10-10 14:59:00
圆满收官 | 威图RiLineX全新一代配电平台正式发布
制造业行业数字化与智能化水平要求日益提升,这意味着制造业将面临集人力、技术、时间和成本全面优化的巨大挑战。配电系统作为工业场景下能源传输的载体
2025-10-10 14:59:00
河北日报讯(许君强、李晴宇)9月24日,2025河北国际工业设计周辛集分会场活动在辛集市工业设计创新中心启动。此次分会场以“跨界融合·创新设计”为主题
2025-10-10 15:23:00
中新经纬10月10日电 题:这届年轻人,为什么抢着把“国宝”贴冰箱上作者 周慎 中国科大先研院人工智能文旅融合研究院执行院长十一黄金周刚过
2025-10-10 15:45:00