• 我的订阅
  • 科技

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

类别:科技 发布时间:2024-08-07 09:32:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

文章的第一作者是上海交通大学博士研究生赵峻图(主页:https://juntuzhao.run),他的研究方向包括计算机视觉和人工智能赋能的生命科学。此外,他还担任上海交通大学校田径队队长。文章的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉(主页:https://dequan.wang)。

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

设想一下,如果让你画一幅 “茶杯中的冰可乐” 的图片,尽管茶杯与冰可乐的组合可能并不恰当,你仍然会很自然地先画出一个茶杯,然后画上冰块与可乐。那么,当我们给 AI 画家提出 “画出茶杯中的冰可乐” 的要求时,会发生什么呢?在 2023 年 10 月大规模 AI 图像生成模型刚刚兴起时,我们便进行了这种尝试,得到了以下结果:

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

考虑到 AI 模型更新换代带来的性能提升,我们在 2024 年 7 月又使用了最先进的模型进行了同样的尝试:

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

可以看出,即使是最先进的 AI 画家(例如 Dall・E 3),也无法凭空构建 “茶杯中的冰可乐” 的场景,它们往往会摸不着头脑,纠结良久后画出一个装满冰可乐的透明玻璃杯。即使是拥有昂贵数据标注基础以及 ChatGPT-4 加持下的最新 Dall・E 3 也无法稳定地 “将冰可乐装进茶杯里”,这一问题在学术界被归类为文生图模型的文本图像不对齐问题(text-image misalignment)。最近,上海交通大学王德泉老师课题组在论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了这一问题的新分支,该论文即将发表在 2024 年 10 月份的第 18 届欧洲计算机视觉大会(ECCV)上。

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

论文链接:https://arxiv.org/abs/2408.00230 项目链接:https://lcmis.github.io

文本图像不对齐问题是图像生成领域中的一个重要方向,与传统不对齐问题不同的是,在传统不对齐问题中,人们主要关注的是一组概念对中两个概念的相互影响,例如给定 “一个苹果和一个梨” 的需求,得到的图像要么是两个苹果,要么是两个梨,不会出现第三种概念。而在 “茶杯中的冰可乐” 这一例子中,有一个关键的隐藏变量 “透明玻璃杯”,其从未在文本提示中出现,却替代 “茶杯” 出现在了图像中。这种现象在本文中被称为包含隐藏变量的不对齐问题(Latent Concept Misalignment,简称 LC-Mis)。

为了更深入地探索为什么茶杯会消失在图像中,我们首先希望收集一些与 “茶杯中的冰可乐” 存在相似问题的数据。然而,“茶杯中的冰可乐” 问题源于人类的奇思妙想与 AI 的死记硬背之间的冲突,如果仅依靠人类专家冥思苦想来创造新的概念对,效率将会非常低下。因此,我们设计了一个基于大语言模型(LLMs)的系统,利用 LLMs 体内蕴含的人类思维来帮助我们快速收集与 “茶杯中的冰可乐” 存在类似问题的概念对。在这个系统中,我们首先向 LLMs 解释 “茶杯中的冰可乐” 问题背后的逻辑,然后简单地将这一问题划分为几个类别,让 LLMs 按照不同类别的逻辑生成更多的类别和概念对,最后我们使用文生图模型来绘制图像进行检查。然而,我们在后续实验中发现,现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定缺陷。因此,我们只能采用人工评估的方式,我们对每组概念对生成 20 张图像,并根据这 20 张图中正确画出的数量为这组概念对给予 1 至 5 的评级,其中第 5 级表示所有 20 张图像均未能正确生成。

为了找回图像中的茶杯,我们提出了一种名为 Mixture of Concept Experts (MoCE) 的方法。我们认为,如果不从人类处理问题的角度来进行思考,那么人工智能的一切都是毫无道理的。在当今最火热的文生图模型 diffusion models 中,注意力机制会同时处理文本提示中的可乐与茶杯,但这并不符合人类按照概念顺序作画的规律。因此,我们将顺序作画的规律融入到 diffusion models 的多步采样过程中,成功地将消失的茶杯找了回来:

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

具体来说,LLMs 会首先告诉我们应该先画一个茶杯。接下来,我们将茶杯这一概念单独输入给 diffusion models,完成 T-N 步的采样。而在余下的 N 步采样中,再提供完整的文本提示,“茶杯中的冰可乐”,最终生成一张干净的图像。在此过程中,N 起到了至关重要的作用,因为它决定了为 “茶杯” 分配的采样步数。于是,我们使用一个多模态模型来衡量图像与茶杯以及冰可乐的契合度评分。当图像和两个概念的评分之间相差很大时,说明有一个概念很可能被模型忽略了,于是就需要相应地调整 N 的取值。由于 N 的取值与概念在图中出现概率之间的关系是正相关的,因此这一调整过程是由二分查找来完成的。

最后,我们使用 MoCE 以及各种 baseline 模型在收集到的数据集上进行了广泛的实验,并展示了以 “茶杯中的冰可乐” 为首的可视化修复结果,以及在整个数据集上人类专家评估的结果对比。和几种 baseline 模型相比,我们提出的 MoCE 方法显著地降低了第 5 级 LC-Mis 概念对的占比。另外值得注意的是,MoCE 的性能在一定程度上甚至超越了需要大量数据标注成本的 Dall・E 3(2023 年 10 月版本):

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

此外,正如在上文中提到的,现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定缺陷。我们首先仔细挑选了一些带把的透明玻璃杯图像,它们虽然具有茶杯的形状,但是由于其透明玻璃的材质而不能称之为茶杯。我们将这些图像与 MoCE 生成的 “茶杯中的冰可乐” 图像进行了对比,如下图所示:

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

我们使用了两种当前流行的评价指标,Clipscore 和 Image-Reward,来计算图像与 “冰可乐” 之间的契合程度。图像与冰可乐的契合程度越高,得分就越高。然而,这两种评价指标均对茶杯中的冰可乐给予了明显更低的评分,而对透明玻璃杯中的冰可乐赋予了明显更高的评分。因此,这表明现有的自动化评价指标可能无法识别出茶杯中的冰可乐,因为其模型内部仍存在 “冰可乐 = 冰块 + 可乐 + 玻璃杯” 的偏见,从而导致其无法有效参与 LC-Mis 问题的评价。

总的来说,我们受到 “茶杯中的冰可乐” 例子的启发,介绍了一种文本图像不对齐问题的新分支,即包含隐藏概念的不对齐问题 (LC-Mis)。我们在大语言模型和文生图模型的帮助下,开发了一个系统来收集 LC-Mis 概念对。接下来,我们受到人类绘画规律的启发,将绘画顺序引入 diffusion models 的采样过程,提出了 MoCE 的方法,缓解了 LC-Mis 问题。最后,我们还通过代表例子 “茶杯中的冰可乐” 展示了当下文本图像对齐问题的评价指标存在的缺陷。在未来的工作中,我们将持续深入研究生成式 AI 技术,推动 AI 更好地满足人类的实际需求,通过不断的努力和创新,我们期待见证 AI 在理解和再现人类创造力方面的突破。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-07 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

限时领 | BBC少儿历史启蒙剧《茶杯旅行记 Teacup Travels》1-2季,绝对收藏~
...了很多的纪念品,但是最宝贵的藏品,还要数那些精致的茶杯。每次来到这里,孩子们都会选择一个茶杯,每个茶杯上面都会有一个专属这只茶杯的图案,这时,Great Aunt Lizzi
2024-08-07 22:54:00
可口可乐2022年第四季度营收同比增长6.98%
...健康意识逐渐加强,以可乐为代表的碳酸饮料迎来了一次滑铁卢。数据显示,2013-2019年,中国碳酸饮料市场的年均复合增长率为-1
2023-02-17 18:39:00
搭伙老伴去世1年后,继子来我家拜年,走时他的一个举动让我泪崩
...去。李爷爷接过木盒,打开一看,里面是一对精致的紫砂茶杯,他泪水泛滥,“这是...闫阿姨最喜欢的茶杯。”“闫阿姨在世时,说过要留给我...”李永强的声音也开始哽咽。客厅里,两人
2024-05-19 12:47:00
高个子女生穿什么样的茶杯裤好看
...常善于发现这些新鲜的单品。今年裤子里的新大陆就是“茶杯裤”了,这个裤子的名称都非常新颖,让人一听就非常带感,它一定是那种可以凹造型的裤子,跟普通裤子不一样。确实,今年的“茶杯
2023-06-27 21:22:00
黑色茶杯裤是今年这条“茶杯裤”火了,跟白色圆领衫都搭配
...聊聊关于五六十岁女人流行裤子穿搭的话题。今年这条“茶杯裤”火了,跟风衣、卫衣都合拍,50、60岁穿更时髦!所谓的“茶杯裤”其实在中年女人的日常生活中还是很常见的,它的裤型与茶
2023-02-28 17:09:00
调查动机近日,市面上又出现了大量以“奶茶杯”“可乐罐”为代表,造型可爱多样、口味种类繁多的电子烟产品,一些未成年人对此趋之若鹜。不少家长吐槽:很多电子烟产品外包装无详细中文说明、
2023-06-19 10:09:00
首批“爱心茶摊”特色小推车亮相
...上不仅有茶桶,还设计了小型收纳架,可以很方便地固定茶杯。推车台面下的收纳空间,进行了分区,一侧可以放置垃圾桶,收纳使用过的茶杯,另一侧可以放置应急小物,如创可贴、口罩、茶包、
2023-08-30 23:21:00
茶杯犬十分可爱,人见人爱,可是背后的残忍真相却令人泪目
...种狗狗呢?相信很多小伙伴都听过一种犬的名字,它就是茶杯犬,顾名思义,正是因为身体就跟一个茶杯的大小差不多,所以被称为是“茶杯犬”。而且样貌也是超级可爱,对于这种娇小可爱的狗狗
2024-07-21 15:14:00
中年女人怎么穿茶杯裤才好看?
...龄女人裤子穿搭的话题。阔腿裤过时了,现在流行的是“茶杯裤”,遮肉显瘦,50、60岁更美!随着季节不同,我们所穿的服装款式也会随着发生相应的变化,每个季节都会有新的流行服饰出现
2023-02-26 13:52:00
更多关于科技的资讯:
天眼记者Vlog|2025数博会抢先体验
8月27日下午两点,中国国际大数据产业博览会(以下简称“数博会”)专业展在贵阳市国际会议展览中心隆重举行开馆仪式,正式拉开2025数博会的序幕
2025-08-28 06:03:00
清晨7:30,当手机铃声准时响起,拿起手机查看天气预报与空气质量指数——这是一天中我们与大数据的第一次相遇。一次手机支付
2025-08-28 06:03:00
LV美妆精品全球首店落户南京上半年我市共开出首店超200家,其中江苏及以上首店超43%南报网讯(记者黄琳燕)南京首店上新
2025-08-28 07:37:00
大多降价千元左右,有的品牌降了四五千元中高档自行车价格:从“居高不下”到“集体跳水”□南京日报/紫金山新闻记者王国俊近年来
2025-08-28 07:37:00
南报网讯(通讯员张炎张烨陶炎记者徐宁)记者昨天从扬子石化获悉,该公司不久前成功通过裂解炉燃料系统回收碳四,实现资源循环再利用
2025-08-28 07:37:00
河北日报讯(张辉、王继军)日前,由阿特钚锐秦皇岛科技有限公司(以下简称“阿特钚锐公司”)自主研制的国内最大振幅三质体电磁振动给料机发往上海
2025-08-28 07:51:00
首届炒菜机器人大赛精彩回顾 添可食万星厨彰显智能烹饪科技实力
近日,一场汇聚了政、产、学、研顶尖力量“首届中国炒菜机器人大赛暨首都共享中央厨房产业峰会”在北京平谷隆重举行。本次大赛由中国食品工业协会与北京市平谷区人民政府联合主办
2025-08-27 08:54:00
山推(德州)公司:靠“智造”省出大效益!成本降30%销售额反增15%
鲁网8月26日讯(记者 赵洪斌 实习记者 李安琦)8月26日,德州市举行“产业链上的山东好品牌”系列记者见面会第四场,聚焦高端装备产业链
2025-08-27 09:02:00
欧瑞电子:全国60%超算中心都用它!三年营收增速超40%
鲁网8月26日讯(记者 吴美琳 实习记者 李安琦)8月26日,德州市举行“产业链上的山东好品牌”系列记者见面会第四场,聚焦高端装备产业链
2025-08-27 09:03:00
吉镜头|高清大图!第十五届中国—东北亚博览会展馆一一看过来
第十五届中国—东北亚博览会开幕在即A2馆内的吉林市展馆 A2馆内的延边展馆A2馆内的辽源展馆 小米汽车展馆布置完毕特斯拉赛博越野旅行车已经抵达现场 印度尼西亚展馆正在进行最
2025-08-27 09:13:00
近 日 ,DeepSeek发 布DeepSeek—V3.1,基于下一代国产芯片训练。DeepSeek—V3.1采用UE8M0FP8精度训练
2025-08-27 09:14:00
从家庭式代工坊到“厦门品牌” 厦门制造“衣”鸣惊人
独立设计师王在实位于红顶艺术社区的工作室。时装工作室的师傅在制作样衣。(设计师 供图)“金顶奖”设计师曾凤飞的时装作品
2025-08-27 09:22:00
厦门软件园:人工智能企业在这里“拔节生长”
厦门软件园已形成从基础层、技术层到应用层的人工智能全产业体系。(厦门软件园 供图)厦门软件园企业美图公司应用人工智能技术
2025-08-27 09:22:00
从普惠金融看厦门消费金融服务体系
今年5月,“中情中意 消费一夏”购在厦门消费季活动吸引超20万人次打卡,金融活水与企业让利深度融合,吸引市民游客共赴这场夏日消费盛宴
2025-08-27 09:22:00
ZWO振旺联合格林尼治天文摄影大赛,共创全球天文盛事
国内独家冠名赞助,聚焦全球星空影像2025 年 8 月,中国天文摄影领军品牌 ZWO 振旺宣布,正式成为英国格林尼治皇家天文台主办的"第 17 届格林尼治天文摄影师大赛"(Ast
2025-08-27 09:55:00