• 我的订阅
  • 科技

文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

类别:科技 发布时间:2024-10-08 09:48:00 来源:新智元

【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。

自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。

Playground Research最近发布了一篇论文,详细介绍了团队最新的、基于DiT的扩散模型Playground v3(简称PGv3),将模型参数量扩展到240亿,在多个测试基准上达到了最先进的性能,更擅长图形设计。

与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同,PGv3完全集成了大型语言模型(LLMs),基于全新的深度融合(Deep-Fusion)架构,利用仅解码器(decoder-only)大型语言模型的知识,来进行文本到图像生成任务。

此外,为了提高图像描述的质量,研究人员开发了一个内部描述生成器(in-house captioner),能够生成不同详细程度的描述,丰富了文本结构的多样性,还引入了一个新的基准CapsBench来评估详细的图像描述性能。

实验结果表明,PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色;用户偏好研究表明,PGv3模型在常见的设计应用中,如表情包(stickers)、海报和logo设计,具有超越人类的图形设计能力,还能够精确控制RGB颜色和多语言理解。

PGv3模型架构

Playground v3(PGv3)是一个潜扩散模型(LDM),使用EDM公式进行训练。像DALL-E 3、Imagen 2和Stable Diffusion 3等其他模型一样,PGv3旨在执行文本到图像(t2i)生成任务。

PGv3完全集成了一个大型语言模型(Llama3-8B),以增强其在提示理解和遵循方面的能力。

文本编码器

Transformer模型中的每层捕捉到的表示不同,包含不同级别的单词级和句子级信息,标准做法是使用T5编码器或CLIP文本编码器的最后一层输出,或是结合倒数第二层的输出,不过,研究人员发现选择用于调节文本转图像模型的最佳层非常麻烦,特别是使用解码器风格的大型语言模型时,具有更复杂的内部表示。

文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

研究人员认为,信息流通过LLM每层的连续性是其生成能力的关键,而LLM中的知识横跨了所有层,而不是被某一层的输出所封装,所以PGv3在设计时,复制了LLM的所有Transformer块,可以从LLM的每个对应层中都获取隐藏嵌入输出。

这种方法可以充分利用LLM完整的「思考过程」,能够引导模型模仿LLM的推理和生成过程,所以在生成图像时,可以实现更好的提示遵循和一致性能力。

模型结构

PGv3采用了DiT风格的模型结构,图像模型中的每个Transformer块都设置得与语言模型(Llama3-8B)中的对应块相同,仅包含一个注意力层和一个前馈层,参数也相同,如隐藏维度大小、注意力头的数量和注意力头的维度,并且只训练了图像模型部分。

在扩散采样过程中,语言模型部分只需要运行一次,就可以生成所有中间隐藏嵌入。

与大多数传统的基于CNN的扩散模型不同,Transformer模型将图像特征的自注意力与图像和文本特征之间的交叉注意力分开,然后进行联合注意力操作,可以从图像和文本值的组合池中提取相关特征,并且能减少计算成本和推理时间,下面还有一些对性能提升有用的操作:

1. Transformer块之间的U-Net跳跃连接。

2. 中间层的token下采样,在32层中,在中间层将图像键和值的序列长度减少了四倍,使整个网络类似于只有一个下采样的传统卷积U-Net,略微加快了训练和推理时间,而且没有性能下降。

3. 位置嵌入,与llama3中的旋转位置嵌入(RoPE)相同,由于图像是二维的特征,所以研究人员探索了2D版本的RoPE:

「插值-PE」(interpolating-PE)方法不管序列长度如何,保持起始和结束位置ID固定后,在中间插值位置ID,不过该方法在训练分辨率上严重过拟合,并且无法泛化到未见过的纵横比。

相比之下,「扩展-PE」(expand-PE)方法按序列长度成比例增加位置ID,不使用任何技巧或归一化,性能表现良好,没有显示出分辨率过拟合的迹象。

新的VAE

潜扩散模型(LDM)的变分自编码器(VAE),对于确定模型的细粒度图像质量上限来说非常重要。

研究人员将VAE的潜通道数从4增加到16,增强了合成细节的能力,比如较小的面部和文字;除了在256×256分辨率下进行训练外,还扩展到512×512分辨率,进一步提高了重建性能。

CapsBench描述基准

图像描述评估是一个复杂的问题,目前的评估指标主要分为两类:

1. 基于参考的指标,如BLEU、CIDEr、METEOR、SPICE,使用一个真实描述或一组描述来计算相似度作为质量度量,模型得分受到参考格式的限制;

2. 无参考指标,如CLIPScore、InfoMetIC、TIGEr,使用参考图像的语义向量或图像的多个区域来计算所提出描述的相似度指标,但缺点是,对于密集图像和长而详细的描述,语义向量不具备代表性,因为包含的概念太多。

一种新型的评估方法是基于问题的指标,从描述中生成问题,并使用这些问题评估所提出的描述,有助于全面评估文本到图像模型。

受到DSG和DPG-bench的启发,研究人员提出了一种反向的图像描述评估方法,在17个图像类别中生成「是-否」问答对:通用、图像类型、文本、颜色、位置、关系、相对位置、实体、实体大小、实体形状、计数、情感、模糊、图像伪影、专有名词(世界知识)、调色板和色彩分级。

在评估过程中,使用语言模型仅基于候选描述回答问题,答案选项为「是」、「否」和「不适用」。

CapsBench包含200张图像和2471个问题,平均每张图像12个问题,覆盖电影场景、卡通场景、电影海报、邀请函、广告、休闲摄影、街头摄影、风景摄影和室内摄影。

实验结果

文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

研究人员对比了Ideogram-2(左上),PGv3(右上)和Flux-pro(左下),当以缩略图形式查看时,3个模型的图像看起来相似,定性差异很小。

当放大检查细节和纹理时,就能看出明显区别:Flux-pro生成的皮肤纹理过于平滑,类似于3D渲染的效果,不够真实;Ideogram-2提供了更真实的皮肤纹理,但在遵循提示词方面表现不好,提示词很长的情况下,就会丢失关键细节。

相比之下,PGv3在遵循提示和生成真实图像方面都表现出色,还展现出明显优于其他模型的电影质感。

指令遵循

彩色文本代表模型未能捕捉到的具体细节,可以看到PGv3始终能够遵循细节。随着测试提示变长,并包含更多详细信息时,PGv3的优势变得尤为明显,研究人员将这种性能提升归功于我们集成了大型语言模型(LLM)的模型结构和先进的视觉-语言模型(VLM)图像描述系统。

文本渲染

模型能够生成各种类别的图像,包括海报、logo、表情包、书籍封面和演示幻灯片,PGv3还能够复现带有定制文本的表情包,并凭借其强大的提示遵循和文本渲染能力,创造出具有无限角色和构图的全新表情包。

RGB颜色控制

PGv3在生成内容中实现了异常精细的颜色控制,超越了标准调色板,凭借其强大的提示遵循能力和专业训练,PGv3使用户能够使用精确的RGB值精确控制图像中每个对象或区域的颜色,非常适合需要精确颜色匹配的专业设计场景。

多语言能力

得益于语言模型天生能够理解多种语言,并构建出良好的相关词表示,PGv3能够自然地解释各种语言的提示,并且多语言能力仅通过少量的多语言文本和图像对数据集(数万张图像)就足够了。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-08 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...新英特尔酷睿Ultra9处理器,带来强大的AI性能,秒间完成文生文、文生图等AIGC创作任务,让办公创作变得更加智能
2024-05-06 21:43:00
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...件Adobe Creative Cloud的多款应用中,包括修图软件PS、矢量图形设计软件Illustrator、内容创作工具Adobe Express和视频编辑软件Premiere Pro等
2024-10-17 09:52:00
...、古镇巷子里迎接龙灯的男女老少……这些由Sora(一款文生视频模型)生成的视频效果足以“乱真”。当地时间2月15日,OpenAI (一家海外人工智能公司)推出旗下首个文生视频
2024-03-04 09:42:00
...新英特尔酷睿Ultra9处理器,带来强大的AI性能,秒间完成文生文、文生图等AIGC创作任务,让办公创作变得更加智能
2024-08-31 08:37:00
...参数大语言模型、AI绘画工具StableDiffusion,秒速完成内容文生文、文生图等创作内容。它还进一步优化了剪映智能抠图功能
2024-04-25 15:03:00
比人工智能更可怕的是……
...20多年里,人工智能算法领域涌现了许多灵魂人物,例如深度学习之父辛顿。他引入了一个算法,叫“反向传播算法”,这是一个比较复杂的算法。还有纽约大学的一位教授,叫杨立昆,现在还非
2023-08-12 13:56:00
文生视频让自动驾驶看到新方向
...文转自:广州日报港科大(广州)人工智能专家陈颖聪:文生视频让自动驾驶看到新方向来源:视觉中国陈颖聪近年来,生成式人工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型So
2024-03-14 05:26:00
从开箱到实战:360°解锁宁畅W350 G50算力黑科技!
...50G50表现依旧强劲!在单张NVIDIARTX™4000AdaGPU支持下,利用文生图模型SD生成140张512*512尺寸图片
2024-06-28 12:45:00
Sora为何没能诞生在中国?
...迹”的再次验证发布Sora之前,OpenAI并未向外界透露入局文生视频的想法。直到今年年初,全球文字生成视频赛道的焦点
2024-03-19 05:31:00
更多关于科技的资讯:
少儿人形机器人“主打”陪伴
少儿人形机器人筑境H1在与巡检机器人互动。南京日报/紫金山新闻记者 孙琳 摄□南京日报/紫金山新闻记者孙琳 通讯员焦娇朱强申“大家好
2025-08-18 07:40:00
□南京日报/紫金山新闻记者 邓露洁 通讯员彭海洋“生成一张挂机空调展示海报,要有家居背景,文字要醒目一点。”8月14日下午
2025-08-18 07:41:00
六成参赛机器人“关节”,南京造!
因克斯一体化关节模组赋能2025世界人形机器人运动会六成参赛机器人“关节”,南京造!南报网讯(记者徐宁)8月14日,全球首个以人形机器人为参赛主体的综合性体育盛会“2025世界人形机器人运动会”在北京开幕
2025-08-17 09:53:00
骑手升级“城市骑士”!饿了么淘宝闪购全面提升骑士保障激励体系
8月17号饿了么“骑士日”当天,饿了么董事长兼CEO范禹发布内部信,宣布平台全体骑手正式升级为“城市骑士”,全面升级骑士保障
2025-08-17 15:18:00
合肥神笔生物:基因编辑点亮“中国光”
大皖新闻讯 近日,在青岛海底世界高达9.5米的崖壁前,水流裹挟着自主培育的发光菌奔涌而下,形成一道璀璨流动的“荧光星河瀑布”
2025-08-17 13:26:00
2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动开幕
8月16日,作为商务部2025服务消费季系列活动之一,2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动在贵阳市观山湖区阿云朵仓开幕
2025-08-17 21:02:00
360集团20周年庆典:官宣“All in Agent”战略
8月15日,360集团迎来二十周年,在北京奥林匹克体育中心举办的“360集团20周年荣耀庆典”上,创始人周鸿祎向现场数千名员工发表演讲
2025-08-17 13:03:00
培育壮大十大千亿级产业集群丨天为铝业:弃“建”逐“工” 产业迈入新“铝”程
十堰广电讯(全媒体记者 喻波 叶旭升 通讯员 杜达巍)面对建筑型材市场的激烈竞争,今年,湖北天为铝业科技有限公司果断转型
2025-08-17 19:24:00
7月25日,位于邢台市沙河市的河北德金玻璃有限公司三线生产车间,两条生产线上不同规格的玻璃从自动传送带缓缓下线,一台台机械臂来回抓取新鲜出炉的玻璃原片
2025-08-17 07:29:00
90后寒门CEO,帮了雷军一个大忙
小米汽车YU7爆单后,车越欠越多,根本交付不完。即便雷军7月10日称小米汽车交付已超过30万台,但后面还有小米YU7迫在眉睫的24万个新订单
2025-08-16 15:53:00
用AI帮中小企业傻瓜式获客,这个营销Agent收入每月增长150%
文|邓咏仪编辑|苏建勋2024年中离开阿里,开始在Agent赛道创业时,郭振宇面临不少质疑:到底是做AutoAgent(自主代理
2025-08-17 02:24:00
“产业链上的山东好品牌”青岛市系列现场媒体见面会|现代轻工产业链专场——利和味道(青岛)食品产业股份有限公司
鲁网8月16日讯8月15日,在青岛鑫复盛集团有限公司,青岛市政府新闻办举行“产业链上的山东好品牌”青岛市系列现场媒体见面会第三场——现代轻工产业链专场
2025-08-16 09:40:00
通讯员 张汶宁8月14日,山东泰安举办“产业链上的山东好品牌”泰安企业家系列记者见面会首场活动。泰开集团、泰和电力、山东瑞福锂业
2025-08-16 09:56:00
聚焦长春农博会 |流量经济直播间首秀 “千万销量”引爆“线上农博”
8月15日,第二十四届长春农博会开幕首日,长春农博园3号馆内气氛热烈,吉林省流量经济赋能电商直播首场活动正式拉开帷幕。联合抖音
2025-08-16 10:29:00
首店经济引爆消费热潮,万达“提质提级”重构齐鲁商业生态
8月15日,盒马鲁中首店于淄博富力万达广场盛大开业。这不仅标志着盒马成功布局山东第七城,其开业即火爆的盛况,更凸显了“首店经济”在激发区域消费活力中的关键引擎作用
2025-08-16 10:30:00