• 我的订阅
  • 科技

速度惊人,手机跑stablediffusion,12秒出图

类别:科技 发布时间:2023-04-28 17:14:00 来源:浅语科技

手机生图只要12秒?

这不是吹的,谷歌就给实现了。

最新研究中,谷歌研究人员对4个GPU分层优化,在三星手机上成功运行StableDiffusion1.4。

实现了11.5秒生成图像,重要的是,内存使用量也大幅减少。

正所谓,SpeedIsAllYouNeed!

速度惊人,手机跑stablediffusion,12秒出图

论文地址:https://arxiv.org/ abs/2304.11267

谷歌最新提出的方法是通用的,可以对所有扩散模型的改进,并非仅针对特定设备实现的。

通过实验结果发现,三星S23Ultra和 iPhone14Pro 的整体图像生成时间分别减少了52%和33%。

这意味着,一部手机装下一个生成式AI模型的未来更近了。

速度惊人,手机跑stablediffusion,12秒出图

从3080到一部手机

当前,将大型扩散模型合并到任何App中的一个关键考虑因素是,模型将在何处执行选择。

在一个消费级设备上部署模型的好处是,较低的服务成本、改善扩展性、还可以离线,并且能改善用户隐私。

22年,StableDiffusion刚刚发布的第一个版本,最初只能缓慢运行在RTX3080上。

StableDiffusion有超过10亿的参数,DALL-E是120亿,以后随着扩散模型的发展,参数量会逐渐增加。

速度惊人,手机跑stablediffusion,12秒出图

由于设备计算和内存资源的限制,因此在运行时带来了诸多挑战。

在没有精心设计情况下,在设备上运行这些模型可能会导致,由于迭代去噪过程和过多的内存消耗,输出内容延迟就会增加。

此前,也有研究实现了将StableDiffusion成功部署到设备上,但仅局限于特定的设备或芯片组。

对此,谷歌研究人员对大型扩散模型提供了一系列实现优化,这些模型在配备GPU的移动设备上实现了迄今为止报道的最快推理延迟。

在不使用INT8量化的情况下,对于一张512x512的图片进行20次迭代,StableDiffusion1.4的推理延迟低于12秒。

具体是如何实现的呢?GPU感知优化

在论文中,研究人员侧重的是使用大型扩散模型,然后完成从文本描述生成图像的任务。

虽说论文中,部分讨论是研究者为StableDiffusion特定结构所提出的优化建议,但这些优化可以很容易推广到其它大型扩散模型上。

研究人员表示,当用文本提示进行推理时,这个过程包含根据所需的文本描述,应用额外条件来指导反向扩散。

具体来说,StableDiffusion的主要组成部分包括:文本嵌入器(TextEmbedder)、噪声生成(NoiseGeneration)、去噪神经网络(DenoisingNeuralNetwork,akaUNet),以及图像解码器(ImageDecoder)。

如下图所示:

速度惊人,手机跑stablediffusion,12秒出图

StableDiffusion中主要组件及其相互作用的示意图

下面,我们分别介绍一下这几个组成部分,各部分间的关系参照图。

・文本嵌入器:

利用CLIP模型对文本提示y进行编码,生成一个高维嵌入向量τθ(y),将文本提示的语义封装进去。该嵌入被当作去噪神经网络的输入,为逆向扩散的过程提供指示。

・噪声生成:

给潜在空间提供随机噪声z,该噪声作为逆向扩散过程的起始点。

・去噪神经网络:

该网络被设计为近似p(z|y)形式的条件分布,利用条件去噪自动编码器θ(zt,t,τθ(y))(denoisingautoencoder)。每次迭代t采用UNet架构。

同时,交叉注意机制(cross-attentionmechanism)被用来操作潜在空间和文本嵌入向量,在迭代过程中预测z的去噪版本。

・图像解码器:

逆行扩散过程在潜在空间

速度惊人,手机跑stablediffusion,12秒出图

中进行。一旦这个过程完成,图像解码器D被用来从潜在矢量中重建RGB图像。

研究人员在整个UNet架构中实现了群组归一化(Groupnormalization,GN)。

这种归一化技术的工作原理是将特征图(featuremap)的pipeline划分为较小的组,并对每个组进行独立的归一化,使GN对批次大小的依赖性降低,更适合于各种大小的批次和各种网络结构。

应用公式①,每个特征值

速度惊人,手机跑stablediffusion,12秒出图

被归一化为其所属组的组均值

速度惊人,手机跑stablediffusion,12秒出图

和方差

速度惊人,手机跑stablediffusion,12秒出图

速度惊人,手机跑stablediffusion,12秒出图

(公式①)

研究人员并没有依次执行上述提到的重塑、平均值、方差和归一化的所有操作,而是以GPUShader的形式设计了一个特别的程序,在一个GPU命令中执行所有这些操作,无需中间流程。

这里先介绍一下GaussianErrorLinearUnit(GELU)。

速度惊人,手机跑stablediffusion,12秒出图

GELU作为模型中普遍存在的激活函数,包含许多数值计算,如乘法、加法和高斯误差函数,如公式②所示。

研究人员弄了一个专门的Shader来整合这些数值计算及其伴随的分割和乘法操作,使其在一次绘图调用中完成执行。

速度惊人,手机跑stablediffusion,12秒出图

(公式②)

稳定扩散中的文本/图像变换器有助于对条件分布P(z|τθ(y))进行建模,这对文本到图像的生成任务至关重要。

然而,自我/交叉注意力机制在处理长序列时遇到了困难,因为它们的时间和内存复杂性是平过方的。在论文中,研究人员介绍了两种可能的优化,旨在缓解这些计算瓶颈。

一种是PartiallyFusedSoftmax,另一种是FlashAttention。

下面仅以Softmax为例。

速度惊人,手机跑stablediffusion,12秒出图

上图是在注意力模块中,优化过的softmax实现。

虚线以上的流程图描述的是直接在矩阵

速度惊人,手机跑stablediffusion,12秒出图

中应用softmax的初始实现。

虚线以下的展示的则是修正后的模块(红色部分)。

总而言之,论文中研究人员提出了一整套优化方案,可以在各种设备上执行大型扩散模型时,共同达到了突破性的延迟数字。

这些改进扩大了模型的通用性,并提高了在各种设备上的整体用户体验。12秒,业界领先

为了评估改进后的模型,研究人员分别在三星S23Ultra(Adreno740)和 iPhone14ProMax (A16)进行了一组基准测试。

作为去噪神经网络,UNet是计算需求最高的组件。

研究人员提供了执行单次迭代的UNet所需的延迟数据,以毫秒为单位测量,图像分辨率为512x512。

此外,他们记录了运行时生成的中间张量在「Tensor」列中的内存使用情况,以及为保存模型权重分配的内存在「Weight」列中的使用情况,均以兆字节为单位。

请注意,内存管理器通过重用中间张量的缓冲区来优化内存占用。

速度惊人,手机跑stablediffusion,12秒出图

如表中数据显示,第一行显示了在公共Github仓库中使用内部OpenCL内核实现,但没有任何优化的结果。

实现之后的结果,并且研究者在没有任何优化的情况下使用内部OpenCL内核。

第2-5行,分别逐个启用每个优化:

Opt.Softmax:部分融合的softmax和优化的softmax减少步骤

S-GN/GELU:用于组归一化和GELU的专用内核

FlashAttn.:FlashAttention实现

Winograd(All):采用Winograd卷积

随着每个优化的启用,实验结果发现延迟逐步减少。

与基线相比,在两种设备上都观察到了显著的总体延迟降低:三星S23Ultra降低52.2%,iPhone14 ProMax降低32.9%。

此外,研究人员还评估了在三星S23Ultra进行文本到图像输出端到端延迟。

进行了20次去噪迭代,生成一张512x512图像,实现了不到12秒的业界领先结果。

可见,在没有数据连接或云服务器的情况下,在手机上本地运行生成式人工智能模型,将开辟了许多可能性。

谷歌最新研究给出了一种全新方案。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-04-29 09:45:40

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
...征、空间关系等。因此,基于Stable diffusion 的工作原理,研究人员们设计了许多控制模块,弥补 Stable diffusion 的短板
2024-08-13 09:39:00
羡慕别人用电脑ai生成的老婆?iphone也可以!
...具除了我们常说的显卡。就连手边的iPhone都可以 “ 一键出图 ” ?没错,小辣椒我看这个最近火爆的AI作画是非常眼馋
2023-02-19 22:50:00
李飞飞初创公司完成2.3亿美元融资,目标打造3D世界模型
...表示,AI前沿研究涉及一种算法,这种算法可以合理推断出图像和文本在三维环境中的样子,并根据这些预测采取行动,这被称为“空间智能”。
2024-09-14 11:41:00
麻省理工学院开发“PhotoGuard”技术
...图像。不过经过查询得知,该技术实际上应用空间有限,研究人员警告,PhotoGuard技术更多适用于反爬虫场景,技术本身也有一定局限性,攻击者只需要裁剪或翻转经过处理的图片,即
2023-07-25 15:30:00
Black Forest Labs推出Flux1.1Pro
...富且自然,尤其在手部和脚部的生成上,畸形现象较少。出图速度:Flux的出图速度非常快,通常在30秒内即可完成一幅图像,这对于需要快速生成视觉内容的用户来说,极具吸引力。模型兼
2024-10-05 04:52:00
苹果取得技术突破:可在 iPhone 上运行大型语言模型
12月21日消息,苹果的人工智能研究人员表示,他们已取得一项重大突破,通过一种创新的闪存利用技术,成功地在内存有限的iPhone和其他苹果设备上部署了大型语言模型(LLM)。这一
2023-12-21 22:47:00
三星公布ufs4.0和ufs5.0路线图
...能手机市场上热度很高为了实现大语言模型的端侧运行,研究人员针对模型尺寸开展了多种研究众所周知,轻量化服务的实现需要缩小存储和内存的尺寸,提高带宽。考虑到端侧大语言模型服务未来
2024-03-21 07:44:00
世界首次!智源研究院实现数字孪生心脏电功能超实时仿真
...兴且强大的研究工具。通过建立数学模型和计算机程序,研究人员可构建数字孪生心脏,能够在虚拟环境中仿真并重现心脏器官的电生理活动(虚拟生理心脏),分析其动态特性,并进行不同生理与
2024-11-29 09:27:00
...网站4月9日报道,当前的人工智能(AI)运行方式非常耗能。研究人员正在寻求更节能的算法和电子元器件。谁还不会通过用“米德朱尼”或Dall-E等AI生成图片来找乐呢
2024-04-24 17:42:00
更多关于科技的资讯:
2025亚太机器人世界杯青岛国际邀请赛在青举行
齐鲁晚报·齐鲁壹点 徐润杰 杨雪 通讯员 杨治峰9月6日至9日,作为2025海洋合作发展论坛的同期活动,2025亚太机器人世界杯青岛国际邀请赛在青岛西海岸新区举行
2025-09-09 09:37:00
电网运行风险防御技术与装备全国重点实验室:他们在!大停电多年未遇,“网”自岿然不动编者按科技改变世界,而位于各大高校院所
2025-09-09 07:43:00
由十几人紧盯变一两人巡检,5G+智能产线“显神通”一根头发丝的1/7!滑块南京造,精度航天级□南京日报/紫金山新闻记者黄琳燕走进南京工艺装备制造股份有限公司(以下简称“南京工艺”)的“5G+智能滑块生产线”车间
2025-09-09 07:43:00
尚诗颖 南昌市新建区象山初级中学摘要:人工智能为中学生外语教育领域引入了新的变革与视角,着重关注学生个性化学习需求及自主学习能力的培养
2025-09-09 06:59:00
共创优质产品体验,从“MagicOS创享家”看荣耀的“听劝”哲学
摘要:以“听劝”的姿态持续进化,才是产品迭代的核心价值坐标。8月底,成都宽窄巷子又一次“出圈”了。年轻人能听Live现场
2025-09-08 08:19:00
网易云音乐教师节特别活动正式上线 百万黑胶VIP免费领
9月5日,网易云音乐教师节特别活动正式启动。本次活动为教师与学生群体都准备了丰厚福利,教师可免费领取100万份专属福利大礼包
2025-09-08 08:20:00
人工智能成“显眼包” 一批高科技产品亮相投洽会
MUGIN EV350全电动碳纤维垂直起降无人机平台,轻量化碳纤维机身设计,兼顾高强度与低能耗,适用于城市巡检、应急通信等场景
2025-09-08 09:01:00
“红房子”成热门国际会客厅 九位国际嘉宾昨做客
英中贸易协会会长詹诚信翻看《厦门日报》。厦门网讯(文/厦门日报全媒体记者 赵张昀 图/厦门日报全媒体记者 杨进福)投洽会的“国际范儿”体现在哪里
2025-09-08 09:01:00
IBM中国企业级AI巅峰论坛首落烟台黄渤海新区 携手盛启AI新世界
论坛现场大众网记者 邢晨 烟台报道9月5日,IBM中国企业级AI巅峰论坛在烟台黄渤海新区成功举办。论坛上,IBM分享了有关企业级AI的最新洞察
2025-09-08 09:10:00
鲁网9月8日讯当今世界,科技浪潮奔涌而来。数字化、智能化,正在改变每一个行业的运行逻辑,也重塑着金融业的未来。对银行来说
2025-09-08 10:42:00
电冰箱能效新国标出台 节能门槛再提升
本报记者 赵 曦 □ 唐 瑞近日,市场监管总局(国家标准委)发布新版GB 12021.2-2025《家用电冰箱耗电量限定值及能效等级》国家标准
2025-09-08 11:05:00
国家网信办等四部门联合发布的《人工智能生成合成内容标识办法》9月1日起正式施行,明确要求AI生成的文字、图片、视频等内容须进行标识
2025-09-08 11:05:00
记者8月26日从市场监管总局获悉,市场监管总局(国家标准委)近日发布新版洗碗机能效水效强制性国家标准。此次修订发布的标准
2025-09-08 11:06:00
技术驱动增长!聊城乖宝研发构筑壁垒,自有品牌营收35亿稳居行业龙头
大众网记者 彭静 聊城报道9月5日,聊城市政府新闻办举行“产业链上的山东好品牌”企业家系列现场记者见面会(四)聊城农副产品加工与大健康产业链专场
2025-09-08 11:18:00
白象旗下网店公司因虚假广告被罚3万,此前因“多半”桶面“多半”为注册商标陷争议
企查查APP显示,近日,尚选电子商务(江苏)有限公司因发布虚假广告,被新沂市市场监督管理局罚款3万元。违法事实显示,该公司在某平台网店发布虚假宣传广告
2025-09-08 11:20:00