• 我的订阅
  • 科技

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

类别:科技 发布时间:2024-12-21 09:14:00 来源:新智元

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

【新智元导读】北京大学等研究团队优化了Sdcpp框架,通过引入Winograd算法和多项策略,显著提升了图像生成速度和内存效率,最高可提速4.79倍。

在AI生成图像领域,Stable Diffusion已经成为一个里程碑式的工具,凭借其强大的图像生成能力,被广泛应用于艺术创作、商业设计等领域。

然而,生成高质量图像的过程常常需要付出大量的时间和内存,这对于硬件资源有限的设备来说是一大挑战。

为了应对这一问题,北京大学、东北大学、佐治亚大学发布了Stable-Diffusion.cpp(简称Sdcpp)的优化方法,引入了Winograd算法和三个优化策略,最终整图生成速度最高可达到4.79倍,从此实现创作自由!

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

论文链接:https://arxiv.org/pdf/2412.05781

项目主页:https://github.com/SealAILab/stable-diffusion-cpp

Sdcpp是Stable Diffusion模型的C/C++实现,旨在无需外部依赖的情况下在CPU(以及可能配置GPU)上实现高效推理。Sdcpp作为一个高效的推理框架,不仅能够显著加速模型的运行,还能大幅减少内存占用。

Sdcpp的实现中,计算密集型的2D卷积运算是图像生成的主要瓶颈,虽然功能强大,但效率却不够理想,推理速度较慢,内存占用高。

为了解决这些问题,研究人员在Sdcpp的基础上,引入了Winograd算法,对Sdcpp中的卷积操作进行了革命性的改进,最终实现了性能与资源利用率的双提升。

主要优化策略为:

    分步处理:将卷积拆解为滤波器和激活权重的预处理、预处理张量的逐元素乘法和中间结果的后处理三个阶段,提高运算效率。

    局部优化:通过调整数据加载方式(散点存储和聚集加载优化),减少 L1 缓存的切换,最大限度地减少缓存交换,提升内存使用效率。

    并行处理:分析算子间的关联性,将关联性较小的运算动态分配到不同的计算线程与核心上,充分利用多线程和多核心架构,动态分配计算任务,充分发挥硬件性能,减少图像生成延迟。

尤其是在M系列Mac设备上,优化了性能核心(P-core)和效率核心(E-core)的分工,使推理速度得到了显著提升。

多设备、多模型支持

优化后的Sdcpp框架支持多个设备和模型,包括:

主流Stable Diffusion模型:SDv1.4、v1.5、v2.1、SDXL和SDXL-Turbo;

不同硬件平台:Mac、Android、AMD等;

扩展模块:如支持LoRA,以及支持算子量化等,为用户提供更高的灵活性。

此外,该框架还支持并且优化了diffusion transformer模型中的算子,进一步拓展了应用场景。

速度提升,快!

通过实际测试,优化成果令人振奋!

单卷积层的加速表现:对于多种卷积层配置,推理速度平均提升超过2倍!

研究人员测试了在一些在SD生成图片过程中出现比较频繁的卷积层,计算了在这些单卷积层上,优化的Sdcpp相较于原版Sdcpp的加速效果。在不同的卷积层上,推理速度提升至少达到2倍。

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

整图生成速度对比:最高加速比达到4.79倍!

图像分辨率越大,方法的加速效果越明显。在生成1024×1024分辨率图像时,相比于原版Sdcpp,优化后的Sdcpp在M1 Pro以及M2 Max上的推理速度提升可超过4.6 倍(FP32 类型)。

对于其他图像尺寸和SD模型,优化的Sdcpp的加速效果也十分显著(如SDv1.5模型生成512×512图像时在M1 Pro上加速1.84 倍)。

显著的加速比主要得益于框架的局部优化(降低缓存交换并且提高内存使用效率),以及并行处理(动态分配计算任务并且提高运算并行度)。

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

更快的速度,不仅节省时间,更让创作更自由!

实例展示:更真实的生成效果

下图展示了使用 SDXL-Turbo 模型,原版Sdcpp以及我们优化的Sdcpp使用5步采样,所生成的图像对比:

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

可以看出,在相同配置和提示词下,优化后的Sdcpp不仅速度更快,生成的图像也更加细腻逼真,细节丰富,层次分明。

优化的Sdcpp能够支持不同硬件平台上(Mac、Android、AMD 等)各种主流SD模型(如SDv1.4、v1.5、v2.1、SDXL 和 SDXL-Turbo)的所有算子,确保使用这些SD模型能够生成高质量的图片。

该框架还会不断进步,研究人员计划优化更多操作符,提升兼容性;进一步提高模型量化的效率;探索在更多设备上的性能提升。

参考资料:

https://arxiv.org/abs/2412.05781

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-21 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...阻碍 LLM 的进一步创新。 为了缓解这一问题,来自美国东北大学的研究团队及其合作者推出了 Moxin-7B,它是一个完全开源的 LLM
2024-12-13 09:19:00
人工智能产业的未来之星大PK 中国大学生计算机设计大赛落幕
...层仓储、摄像头朝向无法识别二维码和定位码以及摄像头分辨率低等问题。”来自东南大学团队的王昱然表示:“我们利用数学和物理知识,有效地实现了最小路径最优解,同时绕过障碍物,自主导
2023-08-12 19:13:00
最新美国国家人工智能科学院院士介绍
...,对人工智能领域的进步产生了深远影响。IrinaRish,来自东北大学(NortheasternUniversity)
2024-03-24 08:39:00
奇绩创坛2023春季路演日:60个项目,超一半与大模型相关,企服项目占比第二
...、高端数控机床等行业。该项目的产品采用自主研发的超分辨率显微视觉测量新方法,用变革型技术解决测量原理性问题,性能对比结果证明了方法的优越性,将领导新一代超精密测量技术的发展。
2023-06-06 09:39:00
纽约成“火星”:美国多地空气质量创新低影响几何?
...行。“橙色烟雾”何时散去?《华盛顿邮报》基于一个高分辨率天气预报模型(HRRR)对大气特征进行模拟预测,认为这些由野火导致的烟霾将会跟随加拿大新斯科舍省上空一个逆时针旋转的低
2023-06-08 15:27:00
...系统启用以来,累计单套归档文书类电子档案2000余件,生成档案目录1700余条。在综合档案利用方面,实现中英文成绩现场自助查询;利用微信公众号为毕业生提供移动端档案利用预约服
2024-01-03 01:44:00
“3D视频版Sora”来了!
...用途。SV4D技术论文也同步发表,研究团队由Stability AI和东北大学学者组成,其中详细解读了该模型的框架结构
2024-07-26 09:30:00
...简历午间门诊(升级版)”活动,一台台AI设备在3秒内就会生成多维度简历诊断报告,不仅标注内容匹配度、关键词优化等硬指标,还能分析“职业形象定位”“成长路径逻辑”等软件要素。赵
2025-03-26 11:34:00
开诊!山东大学齐鲁医院(青岛)二期项目正式启用!
...化后带有末端点位及标志标识的装饰装修模型渲染效果图生成二维码,张贴在现场对应位置指导施工,推动数字信息技术与工程建设深度融合,有效缩短工期12天,提升现场现代化管理水平与施工
2023-12-27 12:39:00
更多关于科技的资讯:
北京海淀开展坚果炒货食品专项检查
近日,北京市海淀区市场监管局开展坚果炒货食品专项检查。本次重点检查产品的生产日期、保质期、生产厂家等信息是否标注清晰,是否存在过期、变质等问题。中国消费者报记者董芳忠摄影报道
2026-02-05 14:37:00
马上元梦 数字新生|元梦空间绘蓝图 马上元梦嘉年华大会蓉城圆满落幕
2026年2月3日,由元梦空间文化传播(成都)有限公司、元界乐享智联(深圳)科技有限公司、全球元宇宙酒店集团、大湾区企业家联合会联合主办的 “马上元梦数字新生——元梦空间2026马上元梦嘉年华大会”在成都温江皇冠假日酒店盛大举行
2026-02-05 15:08:00
第57次《中国互联网络发展状况统计报告》今天发布。报告显示,截至2025年12月,我国网民规模达11.25亿人,互联网普及率突破80%
2026-02-05 15:21:00
2026年1月以来,一款名为OpenClaw(曾用名Clawdbot、Moltbot)的智能体项目在国际开源社区迅速走红
2026-02-05 15:47:00
中国消费者报南京讯(记者桑雪骐)2月4日,苏州奥体中心体育场灯光璀璨,追觅科技与央视携手打造的“敢梦敢为•追觅之夜”演唱会正式举行
2026-02-05 14:37:00
史上首次!米兰冬奥基于阿里千问打造奥运官方大模型
2月5日,米兰冬奥会开幕在即,国际奥委会主席柯丝蒂·考文垂在国际转播中心举行的活动中宣布,国际奥委会已基于阿里千问大模型打造了奥运史上首个官方大模型
2026-02-05 13:40:00
华商观察丨智能儿童手表席卷全球 安全与隐私红灯亮起
智能儿童手表的全球普及浪潮,正伴随技术迭代与家长安全需求快速推进,成为数字时代儿童生活的标志性设备。据 Global Growth Insights 2025 年 12 月发布的行业报告显示
2026-02-05 11:29:00
All in AI, 重塑保险!中国太保首届科技创新大会燃动申城
鲁网2月5日讯当人工智能成为驱动产业变革的核心引擎,保险行业正迎来从传统模式向数智化跨越的关键拐点。1月30日,中国太保以“All in AI
2026-02-05 11:06:00
2026微信小程序开发服务商推荐:技术与服务双维筛选指南
据2025年中国电子商务协会发布的《小程序生态发展白皮书》显示,当年微信小程序交易规模突破8.3万亿元,同比增长41.2%
2026-02-05 08:12:00
义乌世界杯订单生产进入“冲刺期”
2026年美加墨足球世界杯将在6月启幕。从2025年5月开始,义乌市场上的世界杯订单就陆续而至,如今,球迷服装等世界杯相关体育用品的销售和生产已经进入“冲刺期”
2026-02-05 08:19:00
厦门网讯 (厦门日报记者 李晓平)在商业航天产业化浪潮与国产航空装备升级的双重驱动下,一场关于“星辰大海”的产业竞逐正在上演
2026-02-05 08:30:00
10米/秒,全球最快!杭州造出超高速人形机器人
超高速人形机器人Bolt 镜识科技供图2月2日傍晚,镜识科技发布旗下首款全尺寸人形机器人Bolt。“滴答”一声,红色的人形机器人已冲出10米开外
2026-02-05 08:49:00
当人工智能遇上影视制作,未来影视文化产业将如何被重新定义?2月4日,由浙江省电影局与中国电影科学技术研究所共同发起成立的“人工智能+电影虚拟拍摄融合创新实验室”
2026-02-05 08:49:00
妙音数科获劳伦斯世界纪录“世界首个人工智能(AI)交互XR大空间”认证
2026年2月2日,妙音数科&劳伦斯世界纪录官方授牌仪式正式举行。仪式现场,劳伦斯世界纪录中国区总裁李海涛先生宣读认证声明
2026-02-05 09:27:00
陈文昌摘要:在企业国际化进程不断加深的背景下,越来越多的企业通过海外投资、跨国并购和国际合作进入多元文化环境。文化差异由此成为影响海外企业组织运行的重要变量
2026-02-05 07:10:00