• 我的订阅
  • 科技

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

类别:科技 发布时间:2024-11-07 09:53:00 来源:新智元

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。

近年来,生成式人工智能(AIGC)引发广泛关注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

然而,这些模型在处理复杂的提示词时仍存在不足。例如,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一棵树追黑色的狗」时,模型可能会错误生成两只黑狗,或将「追逐」误解为两只狗在「玩耍」。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

有什么办法可以自动发现这些模型的不足,并进一步提升它们呢?

为解决这一问题,CMU和Meta团队联合推出了全新的评估指标VQAScore及基准GenAI-Bench,用于自动评估图像、视频和3D生成模型在复杂提示词下的表现。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

ECCV’24论文链接::https://arxiv.org/abs/2404.01291

CVPR’24 SynData最佳论文链接:https://arxiv.org/abs/2406.13743

论文代码:https://github.com/linzhiqiu/t2v_metrics

模型下载:https://huggingface.co/zhiqiulin/clip-flant5-xxl

VQAScore模型:https://huggingface.co/zhiqiulin/clip-flant5-xxl

GenAI-Bench数据集:https://huggingface.co/datasets/BaiqiL/GenAI-Bench

这些成果已在ECCV和CVPR等顶会上发表,并被谷歌DeepMind用于评估其最新的Imagen3模型,被誉为当前文生图领域超越CLIP等模型的最佳评估方案!

背景介绍

近年来,文生图模型(如DALL-E 3、Imagen3、Sora等)发展迅速,但如何准确评估这些模型的表现仍是一个关键问题。

尽管许多公司采用人类评估(Human Evaluation)来提升结果的准确性,但这种方式成本高、难以大规模应用,而且缺乏可复现性。

在图片生成领域,已有多种方法使用模型来自动评估(Automated Evaluation)生成图像的表现,其中常见的指标包括CLIPScore、FID、LPIPS、PickScore、ImageReward和HPSv2等。

然而,这些指标真的足够好吗?

现有自动化指标的不足

在评估两张图片的相似性(similarity)时,传统指标LPIPS等方法依靠预训练的图像编码器,将图像特征嵌入后再计算距离。然而,这类方法只能评估图像与图像之间的相似度(image-to-image metric),而无法判断文本和图像之间的相似度(text-to-image metric)。

为了解决这一问题,当前主流的文生图评估采用了CLIPScore,通过独立的图像编码器和文本编码器,将图像和文本嵌入到同一特征空间,并通过计算特征相似度来判断它们的匹配程度。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

然而,CLIPScore存在严重的「bag-of-words」问题:也就是说,CLIP在处理文本时可能忽略词序,混淆像「月亮在牛上面」和「牛在月亮上面」这样的句子。这使得模型难以准确抓住复杂文本中的关键信息。

为了解决这一问题,CMU和Meta的研究团队提出了VQAScore,采用更强大的生成式VQA模型(如GPT-4o)来更准确地评估文生图模型:

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

VQAScore:一种简单有效的评估指标

研究团队基于GPT-4o等用于视觉问答(VQA)任务的生成式视觉语言模型,将图像与提示词之间的相似度定义为模型在回答「这个图像是否显示了[提示词]?请回答是或否。」时给出「是」(Yes)答案的概率:

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

例如,在计算某张图像与提示词「牛在月亮上面」之间的相似度时,VQAScore会将图像和问题「这个图像是否显示了『牛在月亮上面』?请回答是或否。」输入模型,并返回模型选择「是」的概率。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

另外,研究团队发现,当前主流的VQA模型(如LLaVA-1.5)使用了具备单向(auto-regressive)注意力机制的语言模型(如Llama)。这种机制导致模型在提取图像特征时,无法提前获取提示词的完整信息。

为了更有效的提取视觉特征,研究团队使用开源数据训练了一个更强的CLIP-FlanT5 VQA模型。该模型采用了具备双向注意力机制的语言模型FlanT5,使得图像特征提取能够根据输入的提示词动态调整。

研究表明,这一机制在提升VQA模型对复杂提示词的理解方面效果显著。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

VQAScore比主流评估指标更简单高效。许多传统指标依赖大量人类标注(如 ImageReward、PickScore)或私有模型(如GPT-4Vision)才能取得好表现。

相比之下,VQAScore具备以下核心优势:

1. 无需人类标注:VQAScore能直接利用现有的VQA模型取得优异表现,无需在人工标注数据上进行额外微调。

2. 分数更精准:使用GPT-4给图片打分(如在0到100之间打分)时,模型往往会随意给出高分(如90),而忽略图片的真实质量。相比之下,VQAScore使用概率值来判断图片与提示词的相似度,结果更加精确。

VQAScore实验结果

研究人员在大量复杂图文匹配基准(如Winoground和EqBen)以及文生图评估基准(如Pick-a-pic和TIFA160)上对VQAScore进行了测试。

结果显示,VQAScore在所有图像、视频和3D生成任务的基准上超越了CLIPScore等流行指标,取得了最佳表现。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

值得注意的是,VQAScore采用了开源模型(CLIP-FlanT5),却仍大幅超越了使用更强闭源模型(如PALI-17B和GPT-4)的方法(如VQ2、ViperGPT 等)。

此外,VQAScore也超越了依赖提示分解进行视觉推理的先进方法(如 CVPR'23最佳论文Visual Programming和ViperGPT等),进一步验证了端到端评估方案的有效性。

最新的谷歌DeepMind Imagen3报告还指出,使用更强大的VQA模型(如 Gemini)可以进一步提升VQAScore的表现,凸显了其在未来生成式模型评测中的潜力。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

GenAI-Bench:由设计师收集的高难度文生图基准

为了更好地评估文生图模型及其评估指标的性能,研究团队推出了GenAI-Bench。该基准包含1600个由设计师收集的复杂提示词,覆盖了10种生成模型(如DALL-E 3、Midjourney、SDXL等),并配有超过80,000条人工标注。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

GenAI-Bench相比较之前的基准有以下优势:

1. 更具挑战性:研究表明,大多数文生图/视频模型在GenAI-Bench上表现仍有不足,还有大量的提升空间。

2. 避免空洞词汇:所有提示词均经过严格筛选,避免使用假大空的词语,确保评估更具客观性。

3. 细粒度技能分析:GenAI-Bench能提供更细致的技能分类和分析,帮助研究人员深入了解模型在不同能力上的具体表现。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

GenAI-Rank:用VQAScore来提升文生图表现

研究人员构建了一个新的GenAI-Rank基准,为每个提示词使用DALL-E 3和Stable Diffusion(SD-XL)生成3到9张候选图像。

研究表明,从这些候选图像中返回VQAScore得分最高的图像,可以显著提升文生图模型的效果。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

这一方法无需微调生成模型本身,因此也能优化(黑箱)私有模型,如DALL-E 3。

实验结果进一步证明,VQAScore在图像排序上比其他方法(如CLIPScore、PickScore等)更加有效。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

结语

VQAScore和GenAI-Bench为文生图模型提供了更精准且全面的评估,已被Imagen3、VILA-U、RankDPO等多个项目用于更好地评估和优化最新的生成式模型。研究团队已开源代码和数据集,期待未来更多探索与进展!

团队介绍

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

团队的一作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士研究生,由Deva Ramanan教授指导,专注于视觉-语言大模型的自动评估与优化。Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文,并曾荣获最佳论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家,曾在微软研究院担任高级研究科学家。他的研究领域主要集中在深度学习、计算机视觉和多模态模型等方向,曾发表多项具有深远影响力的成果,例如AttnGAN、OSCAR、VinVL、Florence和GLIP等。他在顶级会议如CVPR、ICCV、NeurIPS等发表了大量高影响力论文,是计算机视觉和多模态模型领域的领军人物之一。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

Deva Ramanan教授是计算机视觉领域的国际知名学者,现任卡内基梅隆大学教授。他的研究涵盖计算机视觉、机器学习和人工智能领域,曾获得多项顶级学术荣誉,包括2009年的David Marr奖、2010年的PASCAL VOC终身成就奖、2012年的IEEE PAMI青年研究员奖、2012年《大众科学》评选的「十位杰出科学家」之一、2013年美国国家科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖,以及因其代表性工作(如COCO数据集)获得的Koenderink奖。此外,他的论文在CVPR、ECCV和ICCV上多次获得最佳论文提名及荣誉奖。他的研究成果对视觉识别、自动驾驶、和人机交互等应用产生了深远影响,是该领域极具影响力的科学家之一。

参考资料:

https://arxiv.org/abs/2404.01291

https://arxiv.org/abs/2406.13743

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-07 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

钉钉公布 AI 版本商业定价:调用一次大模型不到 5 分钱
...测试。申请通过后,用户可抢先体验各类 AI 服务,目前文生文、文生图、角色化对话以及 AI 创作等服务均限时免费。 钉钉个人版负责人表示,除了支持升级会员版本提高功能权益外
2023-08-22 16:25:00
AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
随着大模型的落地按下加速键,文生图无疑是最火热的应用方向之一。自从 Stable Diffusion 诞生以来,海内外的文生图大模型层出不穷,一时有「神仙打架」之感。短短几个月,
2024-08-13 09:39:00
...谷歌全面叫板OpenAI,其中视频生成领域,发布对标Sora的文生视频模型Veo。2024年6月,快手“可灵”视频生成大模型上线
2024-06-11 00:10:00
英伟达推出全新文生图ai模型
...伟达公司昨日(7月29日)发布声明,联合推出安全的商业文生图AI模型,能够在6秒时间内生成4张照片,比以前的模型性能提高了一倍
2024-07-31 02:34:00
别等Sora了!这些国产AI视频大模型,款款都超能打
...在国内众多视频大模型中,体验足以位列前三。可灵支持文生视频和图片生成视频(也可以加入文字描述)两种模式,而且可以调整创意想象力和创意相关性。可灵1.5大模型免费用户使用文生视
2024-12-11 20:13:00
赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...)昨日,腾讯混元大模型正式上线视频生成能力,这是继文生文、文生图、3D生成之后,混元大模型的最新业务进展。与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频
2024-12-04 09:56:00
AI文生视频或将为出海营销打开竞争新维度
...领域获得巨大进展;那么,近日,由硅谷AI新星Pika Labs发布的文生视频工具Pika1.0,则为AI在视频领域的应用落地添了一把火
2023-12-06 17:02:00
《元宇宙2086》AIGC概念片发布 基于文生视频模型制作而成
...电影。据介绍,《元宇宙2086》AIGC概念片基于全球领先的文生视频模型制作而成,在中国科幻大会的成果发布环节联合发布。(完)
2024-04-30 22:44:00
首部文生视频AI系列动画片开播!影视ETF涨1.7%
首部文生视频AI系列动画片开播!影视板块盘中拉升,捷成股份涨13%,上海电影、光线传媒、引力传媒、浙文影业等多股跟涨,影视ETF(516620)涨1.7%。首部中国原创文生视频A
2024-02-27 16:20:00
更多关于科技的资讯:
日常生活中,电梯是高层楼宇里不可或缺的垂直交通工具。超过80%的电梯在发生故障前都会释放“求救信号”。这些容易被忽视的异常现象
2025-11-08 05:24:00
进博会上,南京“买手团”大逛“世界超市”全球直采,优品好物装进“购物车”□南京日报/紫金山新闻记者 黄琳燕11月7日,第八届进博会7
2025-11-08 09:31:00
八赴进博彰显深耕决心!凯克携 77 年加拿大真洋牌伟博天然,以全维优势点亮健康新生态
2025 年第八届中国国际进口博览会(进博会)盛大启幕,凯克集团再度携手 webbernaturals 伟博天然荣耀参展
2025-11-08 14:40:00
双11调研:家庭日用类消费成65.89%人大促固定选择,京东成消费者下单日百和服务首选平台
双11已步入第十七个年头,消费者的心态与行为模式也发生了深刻变化。越来越多的中国家庭将双11视为进行生活规划与品质升级的关键节点
2025-11-08 14:42:00
从巴黎歌剧院到家庭客厅,海信激光电视携手 DEVIALET 帝瓦雷开启“家庭影院新世代”
法国当地时间11月4日,全球显示领军品牌海信与知名高端音响品牌 DEVIALET 帝瓦雷在巴黎举办了一场科技与艺术的跨界盛宴
2025-11-08 14:43:00
双11囤货别忘囤“快乐”!华为应用解锁花式娱乐新体验
这个双11,你的购物车是不是已经塞满了心仪的好物?从智能家电到秋冬新装,从母婴用品到家居日用。在忙着为全家人囤货的同时
2025-11-08 14:44:00
在乌镇遇见更懂你的AI,科大讯飞携星火大模型及全场景应用亮相2025世界互联网大会
当千年舟楫摇橹的乌镇,再次成为全球互联网的焦点,一场关于未来的想象正在这里变为现实。2025年11月6日至9日,以“AI共生
2025-11-08 14:44:00
工厂数智化升级,安全建设别再原地踏步!深信服安全托管常态守护
某全球知名的智能制造企业拥有多个生产基地,高智能化产线7*24H运转,而随之而来的安全挑战,却成了企业信息部门“心病”
2025-11-08 14:44:00
双11“精神囤货”指南:华为音乐、视频、阅读,承包你的快乐源泉
又是一年双十一,当购物车被各种生活好物填满,你是否想过,也该为自己的休闲娱乐体验升个级?无论是上下班通勤路上、午休小憩时刻
2025-11-08 14:44:00
11月7日,在2025年世界互联网大会“互联网之光”博览会现场,两位机器人乐手用灵巧的双手演奏钢琴,引人驻足。“我很想去拍拍他们手的细节
2025-11-08 15:52:00
蚂蚁集团CEO韩歆毅:AQ承载蚂蚁健康新使命,让看病更简单、生活更健康
11月8日,乌镇峰会上,蚂蚁集团CEO韩歆毅作为企业代表分享了在AI医疗健康领域的思考与实践。此前,继旗下AI健康应用AQ月活用户突破千万后
2025-11-08 17:00:00
近日,2025福布斯中国・最具影响力华人精英TOP100榜单公布,山西美锦能源股份有限公司董事长姚锦龙上榜。据悉,本届榜单从“产业重塑者”“价值创造者”“趋势勘探者”三大维度
2025-11-08 18:06:00
冲刺四季度 打好收官战丨湖北胜龙机械:优产线强技术 订单实现最大增长
四季度是定全年、保全局的收官季,十堰各工业企业开足马力忙生产、赶订单。湖北胜龙机械有限公司通过产线优化、技术升级、质量提升
2025-11-08 20:36:00
潮玩的本质是“快乐经济”,而非“收割经济”。近日,潮玩品牌泡泡玛特在直播中上演了意外一幕。工作人员手持售价79元的DIMOO盲盒挂链
2025-11-09 01:14:00
厦大机器人项目获“挑战杯”特等奖聚焦提升双臂机器人的自主操作能力东南网11月7日讯 (海峡导报记者 郑薇 通讯员 郭煜新)11月3日
2025-11-09 03:08:00