• 我的订阅
  • 科技

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

类别:科技 发布时间:2024-11-05 09:49:00 来源:机器之心Pro
幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

作者胡健,是伦敦大学玛丽女王学院的博士生,导师是龚少刚教授,这篇文章是在龚少刚教授和严骏驰教授的指导下完成的。

在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。然而,最新发表于 NeurIPS 2024 的研究《Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation》提出了一个有趣的观点:这些幻觉实际上可以被转化为有用的信息源,从而减少对手动提示的依赖。

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

文章链接:https://arxiv.org/abs/2408.15205 代码链接:https://github.com/lwpyh/ProMaC_code 项目网址:https://lwpyh.github.io/ProMaC/

这项研究由来自伦敦大学玛丽女王学院和上海交通大学的研究团队进行的,他们开发了名为 ProMaC 的框架,该框架创新性地利用了大模型在预训练过程中产生的幻觉。不仅能够准确识别图像中的目标对象,还能判断这些对象的具体位置和形状,这在伪装动物检测或医学图像分割等复杂任务中表现尤为出色。

研究动机

该研究专注于一种具有挑战性的任务:通用提示分割任务(task-generic promptable segmentation setting)。在这个框架下,该研究只提供一个任务内的通用提示来描述整个任务,而不会具体指明每张图片中需要分割的具体物体。例如,在伪装动物分割任务中,该研究仅提供 “camouflaged animal” 这样的任务描述,而不会告知不同图片中具体的动物名称。模型需要完成两项主要任务:首先,根据图片内容有效推理出具体需要分割的目标物体;其次,准确确定目标物体的具体位置和分割的形状。

尽管如 SAM 这类大型分割模型的存在,能够在提供较为精确的位置描述时有效地进行物体分割,但在伪装样本分割或医学图像分割等复杂任务中,获取这种精确描述并不容易。以往的研究,如 GenSAM [1],提出利用 LLaVA/BLIP2 这类多模态大模型(MLLMs)来推理出特定样本的分割提示,以指导分割过程。然而,这种方法在处理像伪装样本分割这样的场景时,往往因为目标共现偏差(object co-occasion bias)存在而导致问题。例如,在一个只有草原的图像中,如果训练数据中狮子通常与草原共现,LLaVA 可能会偏向于预测草原中存在伪装的狮子,即使图中实际上没有狮子。这种假设的偏好在伪装动物分割任务中尤其问题严重,因为它可能导致模型错误地识别出不存在的伪装动物。

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

图 1. co-occurrence prior 导致的 hallucination

但是这样的现象就一定是坏事吗?其实并不尽然。考虑到猎豹确实常出没于此类草原,尽管在特定图片中它们可能并未出现。这种所谓的 “幻觉”,其实是模型根据大规模数据训练得出的经验性常识。虽然这种推断与当前的例子不符,但它确实反映了现实世界中的常态。更进一步地说,这种由幻觉带来的常识可能有助于更深入地分析图片内容,发现与图片相关但不显而易见的信息。如果这些信息得到验证,它们可能有助于更有效地执行下游任务。

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

图 2. ProMaC 整体架构

实现方法

如图 2 所示,该研究提出了一个循环优化的 ProMaC 框架,它包括两部分:利用幻觉来从任务通用提示中推理出样本特有提示的 multi-scale chain of thought prompting 模块和将生成的掩码与任务语义相对齐的 mask semantic alignment 模块。前者推断出较为准确的样本特有提示来引导 SAM 进行分割,后者则将生成的掩码与任务语义进行对齐,对齐后的掩码又可以作为提示反向作用于第一个模块来验证利用幻觉得到的信息。通过循环优化来逐渐获得准确的掩码。

具体地,ProMaC框架如图 3 所示:

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

图 3. ProMaC 流程图

多尺度思维链提示

它主要完成两个任务:收集尽可能多的任务相关候选知识,并生成准确的样本特有提示。为此,该研究将输入图像切割成不同尺度的图像块,每个图像块中任务相关对象的不同可见性水平激发了 MLLM 的幻觉。这促使模型在各个图像块中通过先验知识探索图像数据与相关任务之间的联系,进而预测潜在的边界框和目标物体

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术
幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术
幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

但其中只有正确的信息才值得保留。为此,该研究引入了视觉对比推理(Visual Contrastive Reasoning)模块。该模块首先使用图像编辑技术创建对比图像,这些对比图像通过去除上一次迭代中识别到的掩码部分,生成只包含与任务无关背景的图片。接着,通过将原图的输出预测值与背景图片的输出预测值相减,可以消除由物体共存偏差带来的负面影响,从而确认真正有效的样本特有提示。

具体表达式如下:

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

掩码语义对齐

获得的样本特有提示将被送入掩码生成器来产生准确的掩码。首先,样本特有提示被输入到分割模块(SAM)以生成一个掩码。然而,SAM 缺乏语义理解能力,它主要依据给定的提示及其周围的纹理来识别可能要分割的物体。因此,该研究采用了 CLIP 来评估相同提示在不同图像块上生成的各个掩码与目标物体之间的语义相似性。这种方法有助于确保分割结果的准确性和相关性:

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

归一化后的相似度用作权重,以加权合成最终的掩码。这个掩码在下一次迭代中有助于生成更优质的背景图片,进而引导更有效的提示生成。这能充分利用幻觉来提取图片中与任务相关的信息,验证后生成更准确的提示。这样,更好的提示又能改善掩码的质量,形成一个互相促进的提升过程。

该研究在具有挑战性的任务 (e.g., 伪装动物检测,医学图像检测) 上进行了实验:

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

图 4. 伪装样本检测实验结果

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

图 5. 医学图像实验结果

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

图 6. 可视化案例

PromaC 提供了一个新视角,即幻觉不一定就是有害的,如果能加以利用,也是能为下游任务提供帮助。

[1] Hu J, Lin J, Gong S, et al. Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38 (11): 12511-12518.

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-05 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...此前模型相似的局限性,仍然不完全可靠,存在事实性“幻觉”并出现推理错误,可能自信地在其预测中犯错。同时,它的使用价格也更贵
2023-03-15 21:00:00
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的风险挑战。除了这两个例子以外,多模态大模型还存在幻觉、偏见、隐私泄漏等各类安全威胁或社会风险,会严重影响它们在实际应用中的可靠性和可信性。这些漏洞问题到底是偶然发生,还是普
2024-07-25 09:31:00
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR
...【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据
2024-06-21 09:21:00
单卡算力对标英伟达A100,科大讯飞联手华为发布星火一体机
...等能力。在内容安全方面,星火一体机可以针对污语料和幻觉问题,形成立体化的“内容安全机制”。无监督的互联网语料,经过语句判别器、质量判别器、隐私判别器、安全判别器等关卡,得到清
2023-08-16 22:01:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...着模态的增加,输入输出空间的分布更加广泛,并增加了幻觉现象,使得全模态对齐变得更加复杂。在不到两周的时间内,北大对齐小组基于 Llama-3
2024-10-18 09:47:00
Yann LeCun朝“世界模型”理论迈一步,Meta开源“像人一样学习”的图像模型 | 最前线
...比如“六根手指”——这也造成了自回归模型常出现的“幻觉”现象。LeCun认为,想要让AI接近人类水平,其需要像婴儿一样学习世界如何运作。由此,他提出了“世界模型”的概念,解决
2023-06-16 18:14:00
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...关性,以此可以做更好的语义计算和语义的召回。大模型幻觉也是阻碍应用的关键挑战之一。那么,引入了 RAG、知识库之后,大模型就能解决幻觉问题了吗?其实不然,而且有些幻觉问题不仔
2024-09-13 13:33:00
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...等模型。尤其在数学问答等方向表现媲美70B参数模型;在幻觉等任务中,Ovis-1.6的幻觉现象和错误率显著低于同级别的模型
2024-09-20 13:35:00
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...了空间感知的负样本挖掘,进一步提高了模型的健壮性。幻觉问题团队也观察到了多模态大模型在回答是 / 否类问题时,往往表现出产生“幻觉”。对此,团队通过图像条件类别定位以及语义条
2023-12-26 14:06:00
更多关于科技的资讯:
中企加速AI服务出海 蚂蚁数科在马来西亚设立运营枢纽中心
随着全球企业级AI市场爆发,中国AI科技公司正加速在海外市场布局。2月26日,据海外媒体报道,蚂蚁数科旗下旗舰AI产品ZOLOZ在马来西亚正式启动运营枢纽中心
2026-02-26 15:06:00
从“拼价格”到“拼价值”,欧图中国引领中国商家稳拓欧洲
拥有76年历史的德国欧图集团(OTTO Group),是集国际化、多元化、创新性于一身的大型电子商务解决方案提供商及零售集团
2026-02-26 15:21:00
Sensor Tower 2025年最佳图像与视频编辑应用:美图秀秀
2月26日,全球移动应用数据平台Sensor Tower揭晓了APAC Awards 2025年度获奖名单,美图秀秀(Meitu)凭借在AI视觉领域的创新表现
2026-02-26 15:22:00
2026深圳家纺家居展3月启幕 构筑家居产业新高地
2026(春)深圳国际家纺布艺暨家居装饰展览会暨家居中国(深圳)创意设计周将于3月7日—10日在深圳福田会展中心盛大举办
2026-02-26 16:08:00
2026年春节假期,旅游消费市场持续升温,直播带货成为游客预订酒店的一个重要方式。有消费者在直播间下单度假村套餐后,发现宣传的“3分钟到海边”实为需要打车4公里才能到达
2026-02-26 16:33:00
鲁网2月26日讯为更好地服务老年群体,提升老年健康管理水平,日照市中医医院秉承“以医助养、医养结合”的发展理念,正式启动老年医学科门诊
2026-02-26 11:13:00
未来智能 viaim OpenNote 斩获iF设计奖 全球顶级设计奖项“大满贯”
近日,由AI硬件公司未来智能推出的viaim OpenNote斩获2026年德国iF设计奖。这是继德国红点奖与日本G-Mark优良设计奖之后
2026-02-26 11:16:00
复工复学出行潮,雅迪冠能白鲨II凭硬核实力成为年轻用户焕新首选
春节的余温还未散去,复工复产开学的“奋进模式”已经开启。为自己和家人挑选一台称心的座驾,成为许多用户踏上新年奋斗路、求学路的第一步
2026-02-26 11:16:00
杭州日报讯 还记得春晚《武BOT》节目中会后空翻的机器人吗?它不仅赚足了眼球,更在会场之外引爆了一个意想不到的蓝海市场——机器人租赁
2026-02-26 08:07:00
鲁网2月26日讯马年春晚,宇树机器人在《武BOT》中的精彩亮相,点燃了全网对人形机器人的热情,也让这一前沿产业的商业化落地成为焦点
2026-02-26 10:06:00
中新经纬2月26日电 据路透社报道,一封信函显示,来自美国11个州的共和党总检察长敦促美国司法部,对Netflix收购华纳兄弟电影公司及其流媒体资产的计划进行彻底审查
2026-02-26 10:12:00
在满洲里口岸,38名火车司机每天用一段9.8公里的跨境行程,悄悄改写“一带一路”的物流方程式——这看似简单的距离背后,藏着中欧班列走出国门的首道密码
2026-02-26 10:44:00
中新经纬2月26日电 据日本共同社25日晚间消息,日本公平交易委员会对微软启动反垄断审查。报道称,相关人士表示,日本公平交易委员会以微软涉嫌在其他公司的云服务中对使用“微软365”等该公司软件的企业征收高额使用费
2026-02-26 11:00:00
坚守岗位护新春 网络畅通保团圆 滨州移动网络部圆满完成2026年春节通信保障
鲁网2月25日讯2026年春节假期,人员返乡、出行游玩、视频拜年、春晚直播带来网络流量高峰,为确保广大客户通话清晰、上网流畅
2026-02-26 08:17:00
半夜惊醒吓到后背发凉 苹果手机自己在给陌生人打电话!
很多网友说遇到同样情况 有的半夜手机通话47分钟“吓死了!我的iPhone凌晨两点自己打电话!!”昨天一早,橙友“一一啊
2026-02-26 08:07:00