• 我的订阅
  • 科技

英伟达超快stylegan回归

类别:科技 发布时间:2023-02-01 14:22:00 来源:浅语科技

扩散模型的图像生成统治地位,终于要被GAN夺回了?

就在大伙儿喜迎新年之际,英伟达一群科学家悄悄给StyleGAN系列做了个升级,变出个PLUS版的 StyleGAN-T,一下子在网上火了。

英伟达超快stylegan回归

无论是在星云爆炸中生成一只柯基:

英伟达超快stylegan回归

还是基于虚幻引擎风格渲染的森林:

英伟达超快stylegan回归

都只需要接近0.1秒就能生成!

同等算力下,扩散模型中的StableDiffusion生成一张图片需要 3秒钟,Imagen甚至需要接近10秒。

不少网友的第一反应是:

GAN,一个我太久没听到的名字了。

英伟达超快stylegan回归

很快谷歌大脑研究科学家、DreamFusion第一作者BenPoole赶来围观,并将StyleGAN-T与扩散模型做了个对比:

在低质量图像(64×64)生成方面,StyleGAN-T要比扩散模型做得更好。

英伟达超快stylegan回归

但他同时也表示,在256×256图像生成上,还是扩散模型的天下。

所以,新版StyleGAN生成质量究竟如何,它又究竟是在哪些领域重新具备竞争力的?StyleGAN-T长啥样?

相比扩散模型和自回归模型多次迭代生成样本,GAN最大的优势是速度。

因此,StyleGAN-T这次也将重心放在了大规模文本图像合成上,即如何在短时间内由文本生成大量图像。

StyleGAN-T基于StyleGAN-XL改进而来。

StyleGAN-XL的参数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图像,并借鉴了StyleGAN2和StyleGAN3的部分架构设计。

它的整体架构如下:

英伟达超快stylegan回归

具体到细节上,作者们对生成器、判别器和文本对齐权衡机制进行了重新设计,用FID对样本质量进行量化评估,并采用CLIP来对文本进行对齐。

在生成器上,作者们放弃了StyleGAN3中能实现平移同变性(equivariance)的架构,转而采用了StyleGAN2的部分设计,包括输入空间噪声以及跳层连接等,以提升细节随机变化的多样性。

在判别器上,作者们也重新进行了设计,采用自监督学习对ViT-S进行训练。

随后,作者采用了一种特殊的截断(truncation)方法来控制图像生成的效果,同时权衡生成内容的多样性。

只需要控制参数ψ,就能在确保CLIP分数(用于评估图像生成效果)变动不大的情况下,改善生成图像的风格多样性。

英伟达超快stylegan回归

随后,作者们用64个英伟达A100训练了4周,最终得到了这版StyleGAN-T。

那么它的生成效果如何呢?超快生成低分辨率图像

作者们对当前最好的几种GAN、扩散模型和自回归模型进行了评估。

在微软的MSCOCO数据集上,StyleGAN-T实现了64×64分辨率下最高的FID。

(其中,FID是计算真实图像和生成图像特征向量距离的评估用值,数值越低,表示生成的效果越接近真实图像)

英伟达超快stylegan回归

但在更高的256×256分辨率生成上,StyleGAN-T还是没有比过扩散模型,只是在生成效果上比同样用GAN的LAFITE要好上不少:

英伟达超快stylegan回归

如果进一步将生成时间和FID分别作为纵轴和横轴,放到同一张图上来对比,还能更直观地对比生成质量和速度。

可见StyleGAN-T能保持在 10FPS 的速度下生成256×256分辨率图像,同时FID值逼近LDM和GLIDE等扩散模型:

英伟达超快stylegan回归

而在文本生成图像功能上,作者们也从文本特征、风格控制等方面对模型进行了测试。

在增加或改变特定的形容词后,生成的图像确实符合描述:

英伟达超快stylegan回归

即便是快速生成的图像,也能迅速控制风格,如“梵高风格的画”or“动画”等:

英伟达超快stylegan回归

当然,偶尔也有失败案例,最典型的就是生成带字母要求的图像时,显示不出正常字母来:

英伟达超快stylegan回归

作者们正在努力整理代码,表示不久之后就会开源。

英伟达超快stylegan回归

作者介绍

作者们均来自图宾根大学和英伟达。

英伟达超快stylegan回归

一作AxelSauer,图宾根大学博士生,此前在卡尔斯鲁厄理工学院(KIT)获得本硕学位。目前感兴趣的研究方向是深度生成模型、神经网络架构和实证研究。

英伟达超快stylegan回归

二作TeroKarras,英伟达杰出研究科学家,对英伟达RTX技术有重要贡献,也是StyleGAN系列的主要作者,主要研究方向是计算机图形学和实时渲染。

英伟达超快stylegan回归

不过在这波GAN掀起的“文艺复兴”浪潮下,也出现了“StyleGAN时代迎来终结”的声音。

有网友感慨:

在这之前,最新StyleGAN生成的图像总能让我们大吃一惊,然而现在它给我们的印象只剩下“快”了。

英伟达超快stylegan回归

你认为GAN还能撼动扩散模型的统治地位吗?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-02-01 16:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英伟达推出全新文生图ai模型
7月30日消息,GettyImages和英伟达公司昨日(7月29日)发布声明,联合推出安全的商业文生图AI模型,能够在6秒时间内生成4张照片
2024-07-31 02:34:00
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
【新智元导读】一台4090笔记本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像生成速度
2024-10-18 09:49:00
扩散模型和transformer梦幻联动一举拿下新sota
...StableDiffusion,都没有使用Transformer作为图像生成架构。△ 英伟达AI科学家JimFan如今新研究表明
2022-12-24 18:10:00
单卡算力对标英伟达A100,科大讯飞联手华为发布星火一体机
...打造面向超大规模参数大模型训练的国产算力集群,对标英伟达的A100芯片。”在算力安全上,星火一体机基于昇腾AI硬件、昇思AI开源框架打造。据第一财经消息,星火一体机使用的是华
2023-08-16 22:01:00
作者:子渝英伟达发布生成式AI超级芯片GH200,算力高达H100两倍8 月 8 日,英伟达 CEO 黄仁勋在计算机图形学顶会 SIGGRAPH 2023 上发布了专为生成式 A
2023-08-15 01:10:00
AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
...在压缩去噪步数的同时可保持接近无损的性能。接下来,英伟达解决方案架构师赵一嘉从底层技术出发,讲解了文生图最主流的基于Unet的SD和DIT两种模型架构及其相应的特性
2024-08-13 09:39:00
英伟达地表最强,黄教主被称作AI界“霉霉”
...丨创业邦(ID:ichuangyebang)作者丨Juny编辑丨海腰图源丨英伟达官方好久没有一场大会让整个科技界都如此躁动
2024-03-19 11:56:00
英伟达投的Sora竞品免费了!网友挤爆服务器,120秒120帧支持垫图
...起研究NeRF相关的3D计算机视觉。此外,团队成员还包括前英伟达研究科学家Jiaming Song、NeRF开山论文作者之一的Matt Tancik等
2024-06-14 09:06:00
从濒临破产到市值破万亿美元、相当于5个阿里,华人黄仁勋如何创造英伟达?
英伟达CEO黄仁勋在国际电脑展Computex 2023上展示产品出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦GPU巨头英伟达的股价仍在继续上涨
2023-05-31 20:00:00
更多关于科技的资讯: