• 我的订阅
  • 科技

SAM是如何做到“分割一切”的

类别:科技 发布时间:2023-04-17 01:26:00 来源:每日看点快看

本文转自:科技日报

又一通用模型发布

SAM是如何做到“分割一切”的

SAM是如何做到“分割一切”的

视觉中国供图

SAM是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。相比于以往的图像分割模型,SAM可以识别各种输入提示,确定图像中需要分割的内容,还可以灵活集成到虚拟现实/增强现实等其他系统中,且目前对于一些它未见过或相对模糊的场景,也能实现较好的图像分割效果。

◎实习记者 裴宸纬

最近一段时间,人工智能通用模型领域频现“爆款”。4月,Meta公司发布了一款名为“Segment Anything Model”(SAM)的通用模型,号称可以“零样本分割一切”。也就是说,SAM能从照片或视频图像中对任意对象实现一键分割,并且能够零样本迁移到其他任务中。

在相关展示页面中,科技日报记者看到,在一张包含水果、案板、刀具、绿植、储物架等众多物体、背景杂乱的厨房照片中,该模型可迅速识别出不同的物体,以粗线条勾勒出物体轮廓,并用不同颜色对不同物体进行区分。“这就是SAM最重要的功能——图像分割。”中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员、中国科学院大学人工智能学院教授杨戈向记者表示。

那么,SAM的技术原理是什么?相比于此前的图像分割模型,该模型有何不同?未来又有可能在哪些方面应用?

图像分割通用模型泛用性强

杨戈向记者解释道,像SAM这样可以处理多种不同类型任务的人工智能模型,叫作通用模型。与之相对,那些专门处理一种类型任务的人工智能模型,叫作专有模型。

打个形象的比喻,通用模型就好比是一个“多面手”。它具有处理一般事务的能力,但是在精度等性能上往往会逊色于只处理一种类型任务的专有模型。

既然通用模型可能会在精度上低于专有模型,为什么还要费尽心力地开发通用模型?对此,杨戈表示,通用模型与专有模型定位不同。通用模型带来的,是解决分割问题的新范式,特别是帮助科研人员提升在解决专有任务时的效率,“以前,面对不同的任务需求,科研人员往往需要开发不同的专有模型来应对。这样开发出的模型精度确实会更高,但是往往也会付出较大的研发成本,而且研发的模型通用性不强。”杨戈说。

通用模型能够将所有任务都处理得“八九不离十”,因此科研人员往往只需在通用模型的基础上进行优化,使之更加符合任务需求即可,而不需要费尽心力地从零开始搭建专有模型。因此,通用模型的初始开发成本可能会高,但随着使用通用模型的次数越来越多,其应用成本也会越来越低。

SAM就是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。“在SAM出现前,基本上所有的图像分割模型都是专有模型。”杨戈补充道,“打个比方,在医学领域,有专门分割核磁图像的人工智能模型,也有专门分割CT影像的人工智能模型。但这些模型往往只在分割专有领域内的图像时,才具有良好性能,而在分割其他领域的图像时往往性能不佳。”

有业内专家表示,相比于以往的图像分割模型,SAM可以识别各种输入提示,确定图像中需要分割的内容,还可以灵活集成到虚拟现实/增强现实等其他系统中,且目前对于一些它未见过或相对模糊的场景,也能实现较好的图像分割效果;同时,SAM建立了一套图像分割的通用模型,降低了对于特定场景建模知识、训练计算、数据标记的需求,有望在统一框架下完成图像分割任务。目前Meta公司已经开放共享SAM的代码和训练数据集。

利用海量数据实现准确分割

那么,SAM是通过什么技术手段,实现对物体的识别与分割?尤其是在面对复杂环境、甚至没遇到过的物体和图像时,SAM又是怎么做到准确识别与分割的?

“根据Meta发布的相关论文,SAM的模型结构其实并不是特别复杂。”杨戈告诉记者,“它用到了一个叫作‘编码解码器’的构架。”

记者了解到,SAM先通过图像编码器为图像生成编码,同时用一个轻量级编码器将用户的文字提示转换为提示编码。然后,SAM将图像编码分别和提示编码信息源组合在一起,输送到一个轻量级解码器中,用于预测分割掩码。这样一来,一旦使用者给出提示,则每个提示只需要几毫秒就能在浏览器中得到结果响应。

杨戈用了一个生动的例子解释SAM的运行原理。“比如说,给你一张带有猫和狗的图片。‘将照片中的猫标注出来’这就是提示;但是对于机器来说,它并不能直接‘明白’这种文字性提示,因此就需要将文字性提示转换为机器能够理解的提示编码。”同理,对于照片中的猫和狗,机器实际上并不能直接“明白”什么是猫、什么是狗,而是将照片中的猫和狗与图片编码对应起来。SAM通过训练学习提示编码与图片编码的不同结合,理解人类在文字提示中表述的希望如何分割这张图片。一旦“将照片中的猫标注出来”这句提示被输入时,SAM就能快速运行,得到人类想要的结果。

既然SAM并没有真正理解什么是猫、什么是狗,它又是如何准确地执行人类赋予的任务的呢?

“虽然SAM并没有完全理解人类的语言和视觉的能力,但是通过对海量数据的学习,SAM仍然能够做到准确执行任务。”杨戈解释道,用于训练SAM的数据集的数据量,是以往最大数据集的6倍。在这个数据集中,包括1100万张图像,和11亿个标注(可简单理解为11亿个物体)。这是一个“走量”的过程,数据量越大,机器分割图像的能力就越准确;即使在某张图中出现了这11亿个物体之外的物体,机器也往往能够根据以往经验以较高的准确率“推断”出它是什么物体,并将其纳入自己的数据库,这就是为什么SAM对于从未见过的物体,也能有很好的识别与分割效果。

“需要注意的是,这11亿个标注也不是纯手工完成的,而是通过渐进的方式自动完成标注的。一开始,这个数据集中只有相对少量的标注数据。科研人员先用这些数据训练出一个模型,然后再让这个模型自动标注数据,并通过人工对标注结果进行改进,这就得到了比上一个数据集更大一些的数据集。如此循环往复,就能得到海量标注数据集。”杨戈补充道。

促进计算机视觉领域发展

功能如此强大的图像分割通用模型,将给计算机视觉领域带来哪些改变?

“我认为,SAM的出现将为计算机视觉领域的科研人员带来工作范式上的变化。”杨戈对记者说道,“SAM的出现确实会对目前一些与机器人视觉相关的研究领域造成冲击,但从总体上看,SAM的出现会提升相关科研人员的效率。”

杨戈解释道,以往科研人员构建图像分割模型,是一个“从下到上、从零开始”的过程;而图像分割通用模型则将模型构建方式变成了“从上到下”,即在已有性能和泛化能力更强的模型基础上继续修改、优化,“这可能确实会取代某些专有模型,但从总体上看它将有利于整个领域的发展。”

此外,在具体应用上,图像分割通用模型前景十分广阔。

工业中的机器视觉、自动驾驶、安防等一些原来采用计算机视觉技术的行业,因为长尾场景多,需要大量标签数据,因此训练成本较高。有了图像分割通用模型后,这些领域内定制化开发产品的成本可能会降低,由此带来毛利率的提升;还有一些领域,过去因为样本量少而难以应用深度学习等人工智能算法。现在,由于SAM在零样本或者少量样本上表现优异,一些新的应用领域将被拓展,比如从代码驱动变为视觉驱动的机器人、流程工业场景等。

同时,由于SAM可以接受来自其他系统的输入提示,因此科幻片中根据用户视觉焦点信息来识别并选择对应物体或将成为可能。

SAM不仅将在上述这些前沿领域发挥作用,同样或将会用于人们的日常生活。“比如在医学影像诊断领域,SAM可能会催生出精度更高的医学影像模型,提升医疗水平;在拍照过程中,SAM的加入或将实现更快更智能的人脸识别。”杨戈说道。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-04-17 09:45:46

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术
...骏驰教授的指导下完成的。在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战
2024-11-05 09:49:00
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频
2024-02-16 18:44:00
字节版Sora火爆24小时,同名论文再次被热议
...憋了个大的——一口气推出Seaweed和PixelDance两款豆包视频模型,支持文生/图生视频,时长可达10s。以PixelDance为例
2024-09-26 13:41:00
谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏
昨晚,世界模型向前迈出了一大步!Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2,其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界
2024-12-06 09:53:00
技术报告揭秘Sora六大核心优势,影视等行业面临颠覆
...。而这些视频全都是通过OpenAI2月15日发布的最新视频生成模型Sora制作的,用户震惊之余,也给予了Sora高度评价
2024-02-17 21:07:00
谷歌发布 MediaPipe Diffusion 插件
谷歌发布低成本可控文生图插件模型MediaPipeDiffusion,移动端提速20+倍,在v100上运行提速高达100倍
2023-07-13 05:54:00
DeepMind发布Genie 2 一款可以生成可玩3D世界的AI模型
...工具,可根据单个图像提示生成交互式 3D 世界。 这个新模型旨在帮助训练和测试人工智能代理,允许他们使用键盘和鼠标输入与这些动态环境进行交互。 根据 DeepMind 的说法
2024-12-05 09:56:00
OpenAI空降视频生成模型:一口气生成60s,风格画质尺寸灵活定制 | 最前线
...被打破——OpenAI又出王炸,发布了可以生成60秒视频的AI模型Sora。OpenAI官宣Sora。同样在2月16日发布的谷歌最新多模态模型Gemini Pro 1
2024-02-18 06:20:00
马斯克评OpenAI首个视频生成模型:人类认赌服输
OpenAI周四发布了首个视频生成模型Sora,并展示了几段效果炸裂的演示视频。一位X用户分享了Sora生成的一名女子在东京街头漫步的视频
2024-02-16 22:16:00
更多关于科技的资讯:
近日,工业和信息化部公布2025年度中国消费名品名单,全国共276个品牌入选。其中,浙江29个品牌入选,分别为企业品牌18个
2026-02-08 07:47:00
近日,市场监管总局和国家网信办联合发布《网络交易平台规则监督管理办法》(以下简称《办法》),明确禁止平台利用大数据“杀熟”
2026-02-08 00:15:00
潮起章丘,一城所向:章丘世茂广场盛大开业,开启城市商业新主场
鲁网2月7日讯2026年2月6日,中国济南——由章丘控股集团与世茂集团商业地产商娱公司(以下简称世茂商娱)联袂打造的章丘世茂广场盛大开业
2026-02-07 16:32:00
“人机协同”新模式进楼宇,顺丰同城×顺丰速运机器人配送落地南昌双子塔
近日,顺丰同城与顺丰速运携手推出楼宇机器人末端配送新业务,于2月5日率先在江西南昌标志性建筑之一南昌双子塔投入运营。双方聚焦商务楼宇等高层建筑的末端配送难点
2026-02-07 16:48:00
中国科大建立磁各向异性的普适理论
大皖新闻讯 2月7日,大皖新闻记者从中国科学技术大学获悉,该校牛谦教授与高阳教授团队在磁各向异性理论研究中取得突破。研究团队基于自旋轨道耦合的微扰展开以及自旋群的群表示
2026-02-07 12:48:00
厦门网讯(厦门日报记者 应洁)马年新春将至,集美区年味渐浓。2月6日,由集美区商务局主办的“2026集美欢乐购”新春消费券正式“开抢”
2026-02-07 08:49:00
老人也能轻松操作!海尔智家APP“AI语音”让服务零门槛
智能家电功能日益丰富,售后环节的复杂化却成了很多用户的“数字门槛”。在智慧家庭战略指导下,海尔智家APP推出“AI语音”功能
2026-02-07 10:07:00
海尔智家APP“3D家庭视图”将操作效率提升60%
当智能家电数量不断增加,如何高效、直观地管理成了很多用户的“甜蜜负担”。海尔智家APP在智慧家庭战略指引下,通过数字孪生技术打造“3D家庭视图”功能
2026-02-07 10:09:00
从套购到套系,海尔智家靠近用户实现双第一
1月29日,中国家用电器服务维修协会发布《2026年家电服务业及新兴市场发展趋势预测》。报告指出,全屋智能和AI技术正成为推动市场增长的重要力量
2026-02-07 10:10:00
近日,中国科学技术大学的潘建伟院士团队在量子网络领域取得重要突破,首次构建出可扩展量子中继的基本模块,并在此基础上首次将设备无关量子密钥分发的传输距离突破百公里
2026-02-07 10:52:00
大皖新闻讯 近年来,安徽首创金融支持科创企业“共同成长计划”和“贷投批量联动”模式,科技型企业贷款4年连跨7个千亿台阶
2026-02-07 08:44:00
今天,“浙江第一摩天轮”——“天目之心”将在临安天目未来谷正式开转。“天目之心”摩天轮高131.4米,寓意“一生一世”的浪漫
2026-02-07 07:28:00
纵览原创|河北首家SUPER MINISO来了!石家庄 “首店经济”再添消费新场景
记者宋瑶 见习记者杨思涵2月6日,名创优品旗下SUPER MINISO超级名创河北首店在石家庄核心商圈中山路北国商城负一层正式开业
2026-02-07 07:33:00
河北日报讯(见习记者康晓博)2月4日,“AI+机器人”领域领军企业北京极智嘉科技股份有限公司(以下简称“极智嘉”)在雄安新区举行总部揭牌仪式
2026-02-07 07:39:00
邦德激光正式入驻Dream Park全球总部基地
近日,邦德激光总部员工全部迁入位于济南市历城区春晖路3999号的Dream Park全球总部基地,标志着公司发展进入全新阶段
2026-02-06 20:50:00