• 我的订阅
  • 科技

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX

类别:科技 发布时间:2024-10-18 09:49:00 来源:新智元

【新智元导读】一台4090笔记本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现4k分辨率。

一台16GB的4090笔记本,仅需0.37秒,直接吐出1024×1024像素图片。

如此神速AI生图工具,竟是出自英伟达MIT清华全华人团队之笔!

正如其名字一样,Sana能以惊人速度合成高分辨率、高质量,且具有强文本-图像对其能力的模型。

而且,它还能高效生成高达4096×4096像素的图像。

项目主页:https://nvlabs.github.io/Sana/

论文地址:https://arxiv.org/abs/2410.10629

Sana的核心设计包含了以下几个要素:

深度压缩自编码器(AE):传统自编码器只能将图像压缩8倍,全新AE可将图像压缩32倍,有效减少了潜在token的数量。

线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的普通注意力,在高分辨率下更加高效,且不会牺牲质量。

基于仅解码器模型的文本编码器:用现代的仅解码器SLM替换T5作为文本编码器,并设计了复杂的人类指令,通过上下文学习来增强图像-文本对齐。

高效的训练和采样:提出Flow-DPM-Solver来减少采样步骤,并通过高效的标题标注和选择来加速收敛。

基于以上的算法创新,相较于领先扩散模型Flux-12B,Sana-0.6B不仅参数小12倍,重要的是吞吐量飙升100倍。

以后,低成本的内容创作,Sana才堪称这一领域的王者。

下面来看个更复杂的:

一艘海盗船被困在宇宙漩涡星云中,通过模拟宇宙海滩旋涡的特效引擎渲染,呈现出令人惊叹的立体光效。场景中弥漫着壮丽的环境光和光污染,营造出电影般的氛围。整幅作品采用新艺术风格,由艺术家SenseiJaye创作的插画艺术,充满精致细节。

甚至,像下面这种超级复杂的提示,Sana也能get到其中的关键信息,并生成相应的元素和风格。

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX

顺便,团队还给经典梗图,生成了一个卡通版变体(右)。

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX

设计细节

Sana的核心组件,已在开头简要给出介绍。接下来,将更进一步展开它们实现的细节。

模型架构的细节,如下表所示。

- 深度压缩自编码器

研究人员引入的全新自编码器(AE),大幅将缩放因子提高至32倍。

过去,主流的AE将图像的长度和宽度,只能压缩8倍(AE-F8)。

与AE-F8相比,AE-F32输出的潜在token数量减少了16倍,这对于高效训练和生成超高分辨率图像(如4K分辨率)至关重要。

- 高效线性DiT(Diffusion Transformer)

原始DiT的自注意力计算复杂度为O(N²),在处理高分辨率图像时呈二次增长。

线性DiT在此替换了传统的二次注意力机制,将计算复杂度从O(N²)降低到O(N)。

与此同时,研究人员还提出了Mix-FFN,可以在多层感知器(MLP)中使用3×3深度卷积,增强了token的局部信息。

实验结果显示,线性注意力达到了与传统注意力相当的结果,在4K图像生成方面将延迟缩短了1.7倍。

此外,Mix-FFN无需位置编码(NoPE)就能保持生成质量,成为首个不使用位置嵌入的DiT。

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX

- 基于仅解码器「小语言模型」的文本编码器

这里,研究人员使用了Gemma(仅解码器LLM)作为文本编码器,以增强对提示词的理解和推理能力。

尽管T2I生成模型多年来取得了显著进展,但大多数现有模型仍依赖CLIP或T5进行文本编码,这些模型往往缺乏强大的文本理解和指令跟随能力。

与CLIP或T5不同,Gemma提供了更优的文本理解和指令跟随能力,由此解训练了不稳定的问题。

他们还设计了复杂人类指令(CHI),来利用Gemma强大指令跟随、上下文学习和推理能力,改善了图像-文本对齐。

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX

在速度相近的情况下,Gemma-2B模型比T5-large性能更好,与更大更慢的T5-XXL性能相当。

- 高效训练和推理策略

另外,研究人员还提出了一套自动标注和训练策略,以提高文本和图像之间的一致性。

首先,对于每张图像,利用多个视觉语言模型(VLM)生成重新描述。尽管这些VLM的能力各不相同,但它们的互补优势提高了描述的多样性。

此外,他们还提出了一种基于clipscore的训练策略,根据概率动态选择与图像对应的多个描述中具有高clip分数的描述。

实验表明,这种方法改善了训练收敛和文本-图像对齐能力。

此外,与广泛使用的Flow-Euler-Solver相比,团队提出的Flow-DPM-Solver将推理采样步骤从28-50步显著减少到14-20步,同时还能获得更优的结果。

整体性能

如下表1中,将Sana与当前最先进的文本生成图像扩散模型进行了比较。

对于512×512分辨率:- Sana-0.6的吞吐量比具有相似模型大小的PixArt-Σ快5倍- 在FID、Clip Score、GenEval和DPG-Bench等方面,Sana-0.6显著优于PixArt-Σ

对于1024×1024分辨率:- Sana比大多数参数量少于3B的模型性能强得多- 在推理延迟方面表现尤为出色

与最先进的大型模型FLUX-dev的比较:- 在DPG-Bench上,准确率相当- 在GenEval上,性能略低- 然而,Sana-0.6B的吞吐量快39倍,Sana-1.6B快23倍

Sana-0.6吞吐量,要比当前最先进4096x4096图像生成方法Flux,快100倍。

而在1024×1024分辨率下,Sana的吞吐量要快40倍。

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX

如下是,Sana-1.6B与其他模型可视化性能比较。很显然,Sana模型生成速度更快,质量更高。

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX

终端设备部署

为了增强边缘部署,研究人员使用8位整数对模型进行量化。

而且,他们还在CUDA C++中实现了W8A8 GEMM内核,并采用内核融合技术来减少不必要的激活加载和存储带来的开销,从而提高整体性能。

如下表5所示,研究人员在消费级4090上部署优化前后模型的结果比较。

在生成1024x1024图像方面,优化后模型实现了2.4倍加速,仅用0.37秒就生成了同等高质量图像。

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX

作者介绍

Enze Xie(谢恩泽)

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX

共同一作Enze Xie是NVIDIA Research的高级研究科学家,隶属于由麻省理工学院的Song Han教授领导的高效AI团队。此前,曾在华为诺亚方舟实验室(香港)AI理论实验室担任高级研究员和生成式AI研究主管。

他于2022年在香港大学计算机科学系获得博士学位,导师是Ping Luo教授,联合导师是Wenping Wang教授。并于朋友Wenhai Wang密切合作。

在攻读博士学习期间,他与阿德莱德大学的Chunhua Shen教授、加州理工学院的Anima Anandkumar教授以及多伦多大学的Sanja Fidler教授共事。同时,还与Facebook和NVIDIA等业界的多位研究人员进行了合作。

他的研究方向是高效的AIGC/LLM/VLM,并在实例级检测和自监督/半监督/弱监督学习领域做了一些工作——开发了多个CV领域非常知名的算法,以及一个2000多星的自监督学习框架OpenSelfSup(现名为mmselfsup)。

- PolarMask(CVPR 2020十大影响力论文排名第十)

- PVT(ICCV 2021十大影响力论文排名第二)

- SegFormer(NeurIPS 2021十大影响力论文排名第三)

- BEVFormer(ECCV 2022十大影响力论文排名第六)

Junsong Chen

共同一作Junsong Chen是NVIDIA Research的研究实习生,由Enze Xie博士和Song Han教授指导。同时,他也是大连理工大学IIAU实验室的博士生,导师是Huchuan Lu教授。

他的研究领域是生成式AI和机器学习的交叉,特别是深度学习及其应用的算法与系统协同设计。

此前,他曾在香港大学担任研究助理,由Ping Luo教授的指导。

Song Han(韩松)

Song Han是MIT电气工程与计算机科学系的副教授。此前,他在斯坦福大学获得博士学位。

他提出了包括剪枝和量化在内广泛用于高效AI计算的「深度压缩」技术,以及首次将权重稀疏性引入现代AI芯片的「高效推理引擎」——ISCA 50年历史上引用次数最多的前五篇论文之一。

他开创了TinyML研究,将深度学习引入物联网设备,实现边缘学习。

他的团队在硬件感知神经架构搜索方面的工作使用户能够设计、优化、缩小和部署 AI 模型到资源受限的硬件设备,在多个AI顶会的低功耗计算机视觉比赛中获得第一名。

最近,团队在大语言模型量化/加速(SmoothQuant、AWQ、StreamingLLM)方面的工作,有效提高了LLM推理的效率,并被NVIDIA TensorRT-LLM采用。

Song Han凭借着在「深度压缩」方面的贡献获得了ICLR和FPGA的最佳论文奖,并被MIT Technology Review评选为「35岁以下科技创新35人」。与此同时,他在「加速机器学习的高效算法和硬件」方面的研究,则获得了NSF CAREER奖、IEEE「AIs 10 to Watch: The Future of AI」奖和斯隆研究奖学金。

他是DeePhi(被AMD收购)的联合创始人,也是OmniML(被NVIDIA收购)的联合创始人。

参考资料:

https://nvlabs.github.io/Sana/

https://www.linkedin.com/feed/update/urn:li:activity:7251843706310275072/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-18 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英伟达发布全新rtx500和rtx1000笔记本电脑
2月26日消息,英伟达今日发布了全新RTX500和RTX1000笔记本电脑GPU,采用最新AdaLovelace架构,目前该系列已包含RTX2000
2024-02-26 18:48:00
英伟达推出第5代max-q技术,进一步提高笔记本效率和游戏性
...和Studio设计本提供高性能,该技术就是Max-Q。从GPU架构到笔记本电脑布局和系统架构,再到核心系统和图形软件
2023-01-09 20:09:00
英伟达又发新显卡 但我这次想支持一波AMD
...ltra系列处理器。 它除了在架构的升级、能更好的优化Win笔记本的功耗之外,最大的特点是有能力给笔记本提供形形色色的AI功能
2024-01-10 20:23:00
英伟达和联发科正在合作开发Arm处理器
...2024年第二季度生产,将用于测试,最终目标是进入高端笔记本电脑市场。英伟达并不缺乏开发SoC的经验,过往的Tegra系列做了相当长的一段时间,而类似设计的Orin系列在人工
2023-10-30 09:37:00
amd要痛定思痛,决定全力研发rdna5架构
...英伟达显卡,并且还没有旗舰显卡,至于RDNA3+架构则会在笔记本上使用,核显性能有着比较大的提升。作为全村的希望,AMD似乎决定将宝押到了RDNA5架构上
2024-05-14 00:57:00
2024年台北电脑展回顾:知道大家都馋AI,但请你们先别急
...以满足原本需要独立显卡才能实现的AI应用。这对于轻薄笔记本来说显然是一个喜讯。英特尔也表示LunarLake处理器的出现将会改变如今的AI生态,搭载这颗处理器的笔记本预计将会
2024-06-07 18:40:00
英伟达rtx3050a跑分曝光:性能稍强
...Geekbench跑分网站9月6日数据,一款惠普光影精灵(Victus)笔记本将搭载RTX3050A。该GPU配备1792个CUDA核心
2024-09-07 03:38:00
Arm强势入局独立显卡市场!英伟达终极对手终于出招了
...显卡,但是在雷科技看来Arm或许更倾向于打造一款适用于笔记本电脑等移动设备的高性能AI显卡,而游戏需求只是显卡的应用范畴之一。简而言之:面向移动设备的低功耗、高性能显卡是Ar
2024-08-20 13:45:00
“具身AI”将引领下一代人工智能浪潮 英伟达特斯拉都在布局
...AI系统提出问题:“我们这里有一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一个钉子,如何将它们牢牢地堆叠在一起?”回答这样的问题需要对物理世界有直观了解。AI系统的聪明回答让
2023-05-18 16:22:00
更多关于科技的资讯:
中新经纬12月27日电 据“网信中国”微信号,27日,国家互联网信息办公室起草了《人工智能拟人化互动服务管理暂行办法(征求意见稿)》
2025-12-28 09:18:00
杭州发放10000张无门槛停车券!今天开抢
好消息:2025年12月28日至2026年1月3日,连续7天,“杭州停车”微信小程序将每天放出停车优惠券,总计10000张
2025-12-28 11:45:00
以安全智造引领行业高质量发展
坐落于青岛胶州市上合示范区的海尔上合冰箱互联一工厂,是海尔自创立以来在全球投资最大、智能化程度最高、产业链配套最完整、生态体系最健全的安全生产标杆项目
2025-12-28 15:05:00
永辉南京首家胖东来模式新店落户江宁宝龙,万达茂店焕新压轴开业
岁末钟声渐近,金陵城中,两处商业地标正悄然点亮品质生活的新图景。12月29日,永辉超市南京江宁宝龙广场店将盛大开业,这是永辉在南京全新开设的首家胖东来模式门店
2025-12-28 21:29:00
AIGC视听产业人才新生态大会在京举办
中国青年报客户端讯(中青报·中青网记者余冰玥)12月27日,2025首创郎园AIGC视听产业人才新生态大会在北京举办。面对AI创作人才日益年轻化
2025-12-28 21:31:00
国际热核聚变实验堆ITER计划校正场线圈采购包任务在合肥竣工交付
大皖新闻讯 12月28日,由中国科学院合肥物质科学研究院等离子体物理研究所(以下简称合肥物质院等离子体所)承担的国际热核聚变实验堆ITER计划校正场线圈采购包圆满完成全部的制造任务
2025-12-28 15:14:00
江南时报讯 12月27日,以“智赋江苏,聚势腾飞”为主题的2025江苏省人工智能产业发展大会在南京举行。大会设置江苏“人工智能+”创新成果展区
2025-12-28 21:23:00
冀北绿电交易市场规模跃居全国首位
2025-12-28 19:37:00
电商物流共享给南和宠物食品带来什么——河北特色产业集群共享智造故事(九)漫步邢台市南和区,宠物元素扮靓了街头巷尾。一家家宠物食品公司车间厂区里
2025-12-28 07:44:00
12月26日,位于杭州云栖小镇的国家机器人检测与评定中心(总部)浙江检测中心(以下简称“浙江检测中心”)正式启用。机器人从样机走向量产
2025-12-27 08:10:00
喜报|米糠云顺利通过双ISO体系认证,安全与品质再上新台阶
近日,深圳市米糠云科技有限公司顺利通过ISO27001信息安全管理体系认证与ISO9001质量管理体系认证。这标志着公司在信息安全管理和质量管理方面达到了国际标准
2025-12-27 14:34:00
退货仓分拣 “堵点” 怎么破?快宝共配给出答案
近年来,电商与直播电商的迅猛发展,不仅催生出庞大的正向物流需求,更让逆向物流成为快递行业名副其实的“蓝海”。消费者退换货需求呈爆炸式增长
2025-12-27 14:36:00
京东跨年盛典开启 送好礼官方直降五折起 还能抽祝福“大排面”
岁末迎新,跨年不只是一种仪式,更是一场表达与传递的情感盛宴。京东今年再度打造“年度宠粉”跨年盛典,不仅有众多官方直降5折起的尖货好物
2025-12-27 14:36:00
专为X3D处理器打造,技嘉X870E X3D系列主板全面上线
2025年最热门的CPU毫无疑问当属AMD锐龙X3D系列,而技嘉作为AMD核心合作伙伴之一,专为AMD X3D系列处理器量身定制了X870E X3D系列主板
2025-12-27 14:37:00
58同城2025中国好雇主盛典在深举行,勾勒数智时代雇主价值新坐标
12月26日,58同城2025“中国好雇主”盛典在深圳举办。作为国内极具影响力的雇主品牌盛会,本届盛典以“数智驱动,百业共生”为核心主题
2025-12-27 14:38:00