• 我的订阅
  • 科技

谷歌发布 MediaPipe Diffusion 插件

类别:科技 发布时间:2023-07-13 05:54:00 来源:浅语科技

谷歌发布低成本可控文生图插件模型MediaPipeDiffusion,移动端提速20+倍,在v100上运行提速高达100倍。

谷歌发布 MediaPipe Diffusion 插件

近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。

不过仅凭文本来控制图像的生成往往得不到想要的结果,比如具体的人物姿势、面部表情等很难用文本指定。

谷歌发布 MediaPipe Diffusion 插件

最近,谷歌发布了MediaPipeDiffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(LoRA)变体背景知识

基于扩散模型的图像生成过程可以认为是一个迭代去噪过程。

从噪声图像开始,在每个步骤中,扩散模型会逐渐对图像进行降噪以生成符合目标概念的图像,将文本提示作为条件可以大大提升图像生成的效果。

对于文本到图像生成,文本嵌入通过交叉注意层连接到图像生成模型上,不过仍然有部分信息难以通过文本提示来描述,比如物体的位置和姿态等。

为了解决这个问题,研究人员提出引入额外的模型添加到扩散模型中,在条件图像中注入控制信息。

常用的控制文生图方法包括:

1.即插即用(Plug-and-Play)用到去噪扩散隐式模型(DDIM)inversion方法,从输入图像开始反转生成过程来导出初始噪声输入,然后采用扩散模型(StableDiffusion1.5的情况下需要8.6亿参数)对来自输入图像的条件进行编码。

即插即用从复制的扩散中提取具有自注意力的空间特征,并将其注入到文本转图像的扩散过程中。

2.ControlNet会创建扩散模型编码器的一个可训练副本,通过零初始化参数后的卷积层连接,将传递到解码器层的条件信息进行编码。

3.T2IAdapter是一个较小的网络(7700万参数),在可控生成中可以实现类似的效果,只需要将条件图像作为输入,其输出在所有扩散迭代中共享。

不过T2I适配器模型并不是为便携式移动设备设计的。MediaPipeDiffusion插件

为了使条件生成更高效、可定制且可扩展,研究人员将MediaPipe扩散插件设计为一个单独的网络:

1.可插入(Plugable):可以很容易地与预训练基础模型进行连接;

2.从零开始训练(Trainedfromscratch):不使用来自基础模型的预训练权重;

3.可移植性(Portable):可以在移动设备上运行基础模型,并且推理成本相比原模型来说可以忽略不计。

谷歌发布 MediaPipe Diffusion 插件

即插即用、ControlNet、T2I适配器和MediaPipe扩散插件的对比,*具体数字会根据选用模型不同而发生变化

简单来说,MediaPipe扩散插件就是一个用于文本到图像生成的,可在便携式设备上运行的模型,从条件图像中提取多尺度特征,并添加到相应层次扩散模型的编码器中;当连接到文生图扩散模型时,插件模型可以向图像生成提供额外的条件信号。

插件网络是一个轻量级的模型,只有600万参数,使用MobileNetv2中的深度卷积和反向瓶颈(invertedbottleneck)在移动设备上实现快速推理。

谷歌发布 MediaPipe Diffusion 插件

MediaPipe扩散模型插件是一个单独的网络,输出可以插入到预训练的文本到图像生成模型中,提取的特征应用于扩散模型的相关下采样层(蓝色)。

与ControlNet不同,研究人员在所有扩散迭代中注入相同的控制功能,所以对于图像生成过程只需要运行一次插件,节省了计算量。

下面的例子中可以看到,控制效果在每个扩散步骤都是有效的,即使在前期迭代步中也能够控制生成过程;更多的迭代次数可以改善图像与文本提示的对齐,并生成更多的细节。

谷歌发布 MediaPipe Diffusion 插件

使用MediaPipe扩散插件进行生成过程的演示示例

在这项工作中,研究人员开发了基于扩散的文本到图像生成模型与MediaPipefacelandmark,MediaPipeholisticlandmark,深度图和Canny边缘的插件。

对于每个任务,从超大规模的图像-文本数据集中选择约10万张图像,并使用相应的MediaPipe解决方案计算控制信号,使用PaLI优化后的描述来对插件进行训练。

FaceLandmark

MediaPipeFaceLandmarker任务计算人脸的478个landmark(具有注意力)。

研究人员使用MediaPipe中的drawingutils来渲染人脸,包括脸部轮廓、嘴巴、眼睛、眉毛和虹膜,并使用不同的颜色进行表示。

下面这个例子展现了通过调节面网格和提示随机生成的样本;作为对比,ControlNet和Plugin都可以在给定条件下控制文本到图像的生成。

谷歌发布 MediaPipe Diffusion 插件

用于文本到图像生成的Face-landmark插件,与ControlNet进行比较。

HolisticLandmark

MediaPipeHolisticLandmark任务包括身体姿势、手和面部网格的landmark,可以通过调节整体特征来生成各种风格化的图像。

谷歌发布 MediaPipe Diffusion 插件

用于文本到图像生成的Holisticlandmark插件。

深度

谷歌发布 MediaPipe Diffusion 插件

深度插件的文本到图像生成。

CannyEdge

谷歌发布 MediaPipe Diffusion 插件

用于生成文本到图像的Canny-edge插件。评估

研究人员对facelandmark插件进行定量评估以证明该模型的性能,评估数据集包含5000张人类图像,使用的评估指标包括Fréchet起始距离(FID)和CLIP分数。

基础模型使用预训练的文本到图像扩散模型StableDiffusionv1.5

谷歌发布 MediaPipe Diffusion 插件

FID、CLIP和推理时间的定量比较

从实验结果中的FID和CLIP分数来看,ControlNet和MediaPipe扩散插件生成的样本质量比基础模型好得多。

与ControlNet不同,插件模型只需要为每个生成的图像运行一次,不需要在每个去噪步中都运行,所以推理时间只增加了2.6%

研究人员在服务器机器(使用NvidiaV100GPU)和移动端设备(GalaxyS23)上测量了三种模型的性能:在服务器上,使用50个扩散步骤运行所有三个模型;在移动端上,使用MediaPipe图像生成应用程序运行20个扩散步骤。

与ControlNet相比,MediaPipe插件在保持样本质量的同时,在推理效率方面表现出明显的优势。

谷歌发布 MediaPipe Diffusion 插件

插件在不同移动的设备上的推理时间(ms)总结

在这项工作中,研究人员提出了MediaPipe,一个可在移动端使用的、有条件的文本到图像生成插件,将从条件图像中提取的特征注入扩散模型,从而控制图像的生成过程。

便携式插件可以连接到在服务器或设备上运行的预训练的扩散模型,通过在设备上完全运行文本到图像生成和插件,可以更灵活地应用生成式AI

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-13 09:45:33

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...灵活、复杂、精细等的图像生成需求时,往往需要额外的插件和操作。例如,若想参考任一姿态生成图像,常规方法是:用姿态检测器从参考图像中估计姿态作为条件输入,并加载对应的 Cont
2024-10-30 09:53:00
字节跳动发布文生图sdxl-lightning
...生图模型SDXL的改进版本,与开放模型社区的其他工具和插件兼容,SDXL-Lightning可以作为增速插件无缝整合到卡通
2024-02-24 10:57:00
研究人员提出版权授权方案,能将艺术家风格和IP版权授权给AIGC模型
...受很大影响的情况下,将模型生成特定风格的能力打包成插件,供模型使用者购买使用。尽管单纯地在生成式模型上添加特定风格已经被解决得很好,但他们更多关注的是已经被生成式模型学会的风
2024-06-24 09:13:00
【百度CTO王海峰:文心大模型3.5新增插件机制 使其具备生成实时准确信息的能力】《科创板日报》27日讯,百度首席技术官王海峰表示,文心大模型3.5最大的一个变化是新增了插件机制
2023-06-27 12:33:00
AI赋能文本秒级图示化 万兴科技旗下亿图图示PPT插件全新发布
...力,面向国内用户重磅推出PPT图示创作神器“亿图图示PPT插件”。该插件直击职场人群PPT绘图创作痛点,深度融合DeepSeek-R1推理大模型能力
2025-02-21 15:33:00
2024 ChinaJoy,火山引擎以AI大模型为动能推进游戏玩法创新
...生成等多种场景中,保障游戏业务稳定和成本可控。独特插件:方案具备独有的插件(内容加持)能力,可用于适配游戏 AI NPC 的各类玩法。其中,通用模型、角色扮演模型、语音合成模
2024-07-30 12:11:00
最伟大 Windows 降临,微软要用大模型彻底改变操作系统和交互
...将 AzureOpenAI 服务模型及其数据结合起来,并将其发布为插件。Azure Data 副总裁 Arun Ulagaratchagan 解释道
2023-05-24 14:00:00
复旦大学自然语言处理实验室上线升级版大型语言模型Moss
...术学院教授MOSS系统负责人邱锡鹏表示:“Moss是国内首个插件版开源对话大模型,将支持搜索引擎、图像生成、计算器、方程求解器等插件工具。”邱锡鹏对第一财经记者表示:“多模态
2023-04-24 00:43:00
Blender插件 专业版科幻场景模型深度贴图制作工具 Simple Scifi Pro
当前版本:4.5文件大小:1.14 GB支持版本:3.0+++SIMPLE SCIFI 是一种用于创建完整 32 位置换贴图和实例化几何体的系统化方法
2023-01-20 06:00:00
更多关于科技的资讯:
谢书莹 柳州工学院电力行业作为现代社会的重要支柱,承担着提供稳定电力的关键任务。随着技术的进步和发展,电厂的电气自动化控制设备在提高电力生产效率
2026-03-11 06:58:00
马天宇 河北公安警察职业学院摘要:分布式数据共享面临多方互信与协同治理的核心挑战,传统中心化模式难以满足跨域协作对数据真实性与权责清晰的要求
2026-03-11 06:58:00
3月8日,全国政协委员、中国传媒大学党委书记廖祥忠表示,去年,中国传媒大学一口气砍掉翻译、摄影等16个本科专业和方向。如此大刀阔斧的专业调整
2026-03-11 07:52:00
刘简宁 阜新市特种设备监督检验所电梯是现代建筑必不可少的垂直交通工具之一,电梯的安全与否直接影响人民群众生命财产安全。但也有不少人对电梯年检工作的意义认识不足
2026-03-11 06:58:00
AI时代,“养小龙虾”就能创业成功?
有人研究怎么把企业做大,有人研究怎么把企业做快,这个人却一头扎进历史堆里,研究一件事:为什么有些企业能活很久,有些却中途消失
2026-03-10 20:17:00
当前AI技术正在深入影响内容创作行业,对于AI编曲现象,全国政协委员王黎光表示,AI虽然能代替创作过程但不能代替人工。AI编曲是以大模型的储备量和收集量为基础的
2026-03-10 20:39:00
在银行业竞争日趋激烈、利差收窄的宏观环境下,镇江农商银行坚持以精细化管理为抓手,通过实施“熵减工程”“蜂巢工程”和结构调优三大举措
2026-03-10 22:41:00
中新经纬3月10日电 小红书“薯管家”官方账号发布公告称,近期,平台发现部分用户采用AI托管模式运营账号,通过技术手段自动生成内容
2026-03-10 21:19:00
中国网3月10日讯 据“国家互联网应急中心CNCERT”微信公众号消息,近期,OpenClaw(“小龙虾”,曾用名Clawdbot
2026-03-10 20:05:00
春风送千岗,AI助求职:2026年综合专场招聘会暨春风行动就业援助活动圆满结束
3月7日上午,“AI聘·才汇来”相城区2026年综合类专场招聘会暨春风行动就业援助活动在相城区人力资源市场成功举办。作为“春风行动”系列活动之一
2026-03-10 17:45:00
国科光锐研发生产基地项目落户黄桥
江南时报讯 3月4日,国科光锐研发生产基地项目签约仪式顺利举行,抢抓高端装备制造产业发展机遇,完善先进制造业发展支撑体系
2026-03-10 17:48:00
“养龙虾”,多地砸钱支持
中新经纬3月10日电 “养龙虾”,这是近日的AI热词,即部署和使用名为OpenClaw‌的开源AI智能体框架,因其图标为一只红色龙虾
2026-03-10 19:10:00
鲁网3月10日讯(记者 张佳伟)3月9日,由中国生物发酵产业协会主办、安琪酵母股份有限公司承办的“2026第十一届发酵培养基应用与发展技术论坛”在济南黄河国际会展中心举行
2026-03-10 17:24:00
两会,就这Young!丨万亿存量市场怎么激活?全国人大代表郭兴田用“两天”作答
编者按:今年全国两会,大河网两位00后记者首次踏上两会征程,以“萌新”视角记录两会,为网友带来全新体验:不背稿、不装样
2026-03-10 14:21:00
让家陪伴成长——金隅天坛家居Mall 3月7日启幕,定义“家生活”新方式
在快速更迭的时代,人们对家的期待已超越功能满足,转而追求情感承载与成长陪伴。正是基于这一洞察,金隅天坛家居Mall提出“我家的长期主义”核心主张——让家能够伴随家庭成长
2026-03-10 14:26:00