• 我的订阅
  • 科技

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

类别:科技 发布时间:2024-10-30 09:47:00 来源:IT之家

IT之家 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。

而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。

项目简介

微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。

OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。

这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。

同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。

OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头,下一个发力的战场。AI接管人类电脑
2024-10-28 09:51:00
人生搜索引擎免费用,哈利波特“冥想盆”登GitHub热榜,支持中文
...个项目大量借鉴了之前就很火的“记忆助手软件”Rewind和微软的Windows Recall功能。但是,这两个emmm……Rewind要收费(基础版12美元/月)
2024-11-21 09:44:00
微软推出最新AI模型Muse:一键生成游戏画面
快科技2月20日消息,据报道,微软近日发布了一款名为Muse的生成式人工智能模型,宣称将彻底革新视频游戏场景的制作方式。作为微软在游戏开发领域的重要技术突破,Muse由机器学习研
2025-02-20 08:57:00
微软正研发面部照明AI技术:视频时可自动调整屏幕亮度
快科技8月14日消息,据媒体报道,微软正致力于一项创新性的面部照明技术研发,旨在视频会议场景中自动优化屏幕亮度,为用户带来前所未有的视觉体验。这项技术的核心在于智能调节,确保每位
2024-08-15 09:33:00
微软将建立世界上最大的基于图像的人工智能模型
9月10日消息,微软宣布将与数字病理学提供商Paige合作,建立世界上最大的基于图像的人工智能模型,用于识别癌症。新闻稿显示,该人工智能模型正在针对“前所未有的数据量”进行训练,
2023-09-10 09:46:00
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研究者共同发布了多模态大模型LLaVa(
2024-02-10 21:04:00
微软推出“智能副驾”(Copilot),您的人工智能日常助手
...的事物,并针对您的提问进行回答、创作或进行反馈。在微软看来,这就像是有一位智能副驾在帮助完成各种任务。一直以来,我们都在致力于开发由人工智能驱动的辅助功能,并将其带入到常用或
2023-09-22 20:49:00
AIPC,微软联想华为谁能扛大旗
...周路平沉寂多时的PC市场,迎来了久违的热闹。不久前,微软推出了号称“史上最强Windows PC”——Copilot+PC
2024-06-06 09:17:00
文本提取更方便!微软Win11截图工具更新:不用截图就能复制文本
快科技4月16日消息,今天,微软宣布为Canary和Dev频道的Windows 11 Insiders用户推出截图工具应用的全新更新
2025-04-16 12:53:00
更多关于科技的资讯:
近年来,我国商业保险发展速度较快,产品的种类也日渐丰富,除了大家比较熟悉的车损险、医疗险、航空险等,依托宠物经济应运而生的宠物保险也受到越来越多的关注
2025-11-14 12:19:00
携程商旅设立千万级保障金,推动行业迈向\
11月9日,2025年携程集团全球合作伙伴峰会商旅分论坛暨携程商旅伙伴大会在土耳其伊斯坦布尔举办。会上,携程商旅顺应行业"高品质服务"及"全球化发展"两大趋势
2025-11-14 12:59:00
大华股份亮相全球智慧城市大会
近日,2025全球智慧城市大会在西班牙巴塞罗那会展中心盛大启幕。大华股份携全栈式智慧城市解决方案重磅亮相,围绕城市安全
2025-11-14 12:59:00
虹软科技AI视觉赋能BOLON AI Glasses重磅发布,与Rokid乐奇深度合作打造创新体验
BOLON AI Glasses正式发布,这是国内领先的 AR 眼镜制造商 Rokid 乐奇与 BOLON 眼镜联合打造的全新一代 AI 眼镜
2025-11-14 12:59:00
2025青岛虚拟现实创新大会将启,星鲨研究院探索“具身智能”前沿
鲁网11月14日讯“在这里,唯一限制你的是你自己的想象力。”科幻电影《头号玩家》中对于“绿洲”的这一描述,恰如其分地展现了虚拟现实产业的无限可能
2025-11-14 10:18:00
中新经纬11月14日电 据“网信中国”微信公众号14日消息,网信部门从严整治利用AI仿冒公众人物开展直播营销问题乱象。近期
2025-11-14 10:30:00
大麦娱乐推出全新品牌“大麦国际” 提供全球演出购票、观演服务
购买海外演出门票,现在有了新选择。11月14日,大麦娱乐宣布推出旗下全新业务品牌、全球演出服务平台“大麦国际(MAISEAT)”
2025-11-14 10:45:00
大河网讯 11月11日,全省数字影像检查“云胶片”联盟采购工作顺利开标,产生了拟中选结果,中原算力科技发展有限公司等6家企业拟中选
2025-11-14 10:53:00
鲁网11月13日讯11月13日,山东瑞程数据科技有限公司与济宁学院联合攻关的“多模态肉品AI快检系统”核心技术,在第十四届中国创新创业大赛颠覆性技术创新大赛中斩获优秀奖
2025-11-14 10:54:00
记者走基层|“黑科技”上线,让温暖精准入户
11月12日,河北邢襄热力集团邢台供热分公司二工区三班班长丁帅,在三义庙换热站查看设备运行情况。 河北日报记者 宋 平摄随着11月15日临近
2025-11-14 08:02:00
11月13日,太原公共交通控股(集团)有限公司(以下简称“太原公交”)与中车时代电动汽车股份有限公司(以下简称“中车电动”)举行框架合作协议签约仪式
2025-11-14 07:50:00
记者走基层|智能安全帽,让矿工有了AI“卫士”
11月5日,中煤张家口煤矿机械有限责任公司所属恒洋电器有限公司工作人员介绍智能安全帽产品。河北日报记者 魏 雨摄“嘀嘀
2025-11-13 08:03:00
“长与短”周期变革,“快与慢”时效重构,“热与冷”业态碰撞—— “双11”三重奏,解读消费新变局□南京日报/紫金山新闻记者黄琳燕11月12日中午
2025-11-13 08:05:00
南报网讯(记者周容璇)日前,在南京医药中央物流中心,一辆白色无人车平稳地穿梭于主仓库与宝湾库区之间,仅用15分钟便完成了一次驳货作业
2025-11-13 08:05:00
向“质”攀升,南京机器人解锁“智造”新图景
全链条持续发力,以硬核技术竞逐市场向“质”攀升,南京机器人解锁“智造”新图景□南京日报/紫金山新闻记者徐宁 实习生黄倩机器人是智能制造的核心组成部分
2025-11-13 08:05:00