• 我的订阅
  • 科技

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

类别:科技 发布时间:2024-08-19 09:37:00 来源:量子位

只用不到10%的训练参数,就能实现ControlNet一样的可控生成!

而且SDXL、SD1.5等Stable Diffusion家族的常见模型都能适配,还是即插即用。

同时还能搭配SVD控制视频生成,动作细节控制得精准到手指。

在这些图像和视频的背后,就是港中文贾佳亚团队推出的开源图像/视频生成引导工具——ControlNeXt。

从这个名字当中就能看出,研发团队给它的定位,就是下一代的ControlNet。

像大神何恺明与谢赛宁的经典大作ResNeXt(ResNet的一种扩展),起名字也是用的这个路数。

有网友认为这个名字是实至名归,确实是下一代的产品,将ControlNet提高了一个档次。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

还有人直言ControlNeXt是规则改变者,让可控生成的效率提升了一大截,期待看到人们用它创作的作品。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

蜘蛛侠跳起美女舞蹈

ControlNeXt支持多款SD系模型,而且即插即用。

其中包括了图像生成模型SD1.5、SDXL、SD3(支持Super Resolution),还有视频生成模型SVD。

话不多说,直接看效果。

可以看到,在SDXL中加入边缘(Canny)引导,绘制出的二次元少女和控制线条几乎完美贴合。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

即使控制轮廓又多又细碎,模型依然可以绘制出符合要求的图片。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

而且无需额外训练就可与其他LoRA权重无缝集成。

比如在SD1.5中,可以把姿势(Pose)控制条件与各种LoRA搭配使用,形成风格迥异乃至跨越次元,但动作相同的角色。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

另外,ControlNeXt也支持遮罩(mask)和景深(depth)的控制模式。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

在SD3当中还支持Super Resolution(超级分辨率),可生成超高清晰度的图像。

视频生成当中,ControlNeXt可以实现对人物动作的控制。

比如让蜘蛛侠也跳起TikTok中的美女舞蹈,就连手指的动作也模仿得相当精准。

甚至让一把椅子也长出手跳同样的舞蹈,虽然是抽象了一些,但单看动作复刻得还算不错。

而且相比于原始的ControlNet,ControlNeXt需要的训练参数更少,收敛速度也更快。

比如在SD1.5和SDXL中,ControlNet需要的可学习参数分别是3.61亿和12.51亿,但ControlNeXt分别只需要3千万和1.08亿,不到ControlNet的10%。

而在训练过程中,ControlNeXt在400步左右就已接近收敛,但ControlNet却需要十倍甚至数十倍的步数。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

生成的速度也比ControlNet更快,平均下来ControlNet相当于基础模型会带来41.9%的延时,但ControlNeXt只有10.4%。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

那么,ControlNeXt是如何实现的,对ControlNet进行了哪些改进呢?

更轻量化的条件控制模块

首先用一张图来了解一下ControlNeXt的整个工作流程。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

其中轻量化的关键,是ControlNeXt移除了ControlNet中的庞大控制分支,改为引入一个由少量ResNet块组成的轻量级卷积模块。

这个模块负责提取控制条件(如语义分割掩码、关键点先验等)的特征表示。

其中的训练参数量通常不到ControlNet中预训练模型的10%,但仍能很好地学习将输入的条件控制信息,这种设计大大降低了计算开销和内存占用。

具体来说,它从预训练模型的不同网络层的中等距采样,形成用于训练的参数子集,其余参数则被冻结。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

另外在设计ControlNeXt的架构时,研究团队还保持了模型结构与原始架构的一致性,从而实现了即插即用。

无论是ControlNet还是ControlNeXt,条件控制信息的注入都是一个重要环节。

在这个过程中,ControlNeXt研究团队主要针对两个关键问题进行了深入研究——注入位置的选择和注入方式的设计。

研究团队观察发现,在大多数可控生成任务中,指导生成的条件信息形式相对简单,且与去噪过程中的特征高度相关。

所以团队认为,没有必要在去噪网络的每一层都注入控制信息,于是选择了只在网络的中间层将条件特征与去噪特征聚合。

聚合的方式也尽可能简单——在用交叉归一化对齐两组特征的分布后,直接将其相加。

这样既能确保控制信号影响去噪过程,又避免了注意力机制等复杂操作引入额外的学习参数和不稳定性。

这之中的交叉归一化,也是ControlNeXt的另一项核心技术,替代了此前常用的zero-convolution等渐进式初始化策略。

传统方法通过从零开始逐步释放新模块的影响力来缓解崩塌问题,但往往导致的结果就是收敛速度慢。

交叉归一化则直接利用主干网络去噪特征的均值μ和方差σ对控制模块输出的特征做归一化,使二者的数据分布尽量对齐。

蜘蛛侠妖娆起舞,下代ControlNet来了!贾佳亚团队推出,即插即用

(注:ϵ是为数值稳定性而添加的小常数,γ为缩放参数。)

归一化后的控制特征再通过尺度和偏移参数调整幅度和基线,再与去噪特征相加,既避免了参数初始化的敏感性,又能在训练初期就让控制条件发挥作用,加快收敛进程。

此外,ControlNeXt还借助控制模块学习条件信息到隐空间特征的映射,使其更加抽象和语义化,更有利于泛化到未见过的控制条件。

项目主页:https://pbihao.github.io/projects/controlnext/index.html论文地址:https://arxiv.org/abs/2408.06070GitHub:https://github.com/dvlab-research/ControlNeXt

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

《漫威蜘蛛侠2》第一手体验报道发布
PlayStationBlog发布了《漫威蜘蛛侠2》第一手体验报道:共生体能力、战斗、PS5功能等细节全公开。PSBlog全文
2023-09-18 20:24:00
《漫威蜘蛛侠2》insomniac透露了一些关于故事的新细节
...近的圣迭戈漫展上,Insomniac展示了备受期待的续作《漫威蜘蛛侠2》的故事宣传片,并且还透露了一些关于故事方面的新细节
2023-07-22 17:11:00
《漫威蜘蛛侠2》制作团队采访 年底会有重要功能更新
再过几小时,《漫威蜘蛛侠2》就要在PS5上正式发售了。这款游戏可能是今年最好的索尼第一方大作之一,它相对于《漫威蜘蛛侠》系列的前两作在各方面都有着不错的进步,并在MC上取得了90
2023-10-20 21:13:00
校傲荆楚·大咖谈新②丨对话湖北大学生命科学学院教授李代芹
... 从棉田虫害的忧思到雨林洞穴的探索,湖大一门三代“蜘蛛侠”前赴后继,以大地为纸、步履为墨,写就一部跨越半世纪的科研长诗,点燃荆楚学者的精神星火。近日,荆楚网(湖北日报网)教育
2025-07-26 23:00:00
AMD新功能致使《蜘蛛侠2》崩溃!团队更新紧急移除
...臭名昭著,而第二代Anti-Lag 2似乎也步其后尘了。《漫威蜘蛛侠2》PC版的开发人员在最新的补丁说明中透露,由于Anti-Lag 2 SDK在AMD Radeon GPU上导致崩溃
2025-02-14 22:38:00
索尼推出了《漫威蜘蛛侠2》联名主题游戏硬件
...与开发商InsomniacGames一起发布了新的硬件,以庆祝《漫威蜘蛛侠2》即将推出。这些硬件包括《漫威蜘蛛侠2》限量版捆绑包
2023-08-01 13:39:00
索尼出手打击《蜘蛛侠2》非官方PC版 相关视频被下架
...露事件后,今年2月初,一个非官方的团队制作了《漫威蜘蛛侠2》的PC移植版。游戏推出这一个多月的时间里,其背后的团队一直在为其努力优化
2024-03-21 07:13:00
《蜘蛛侠2》创意总监:小虫将不再是美国警察好帮手
《漫威蜘蛛侠2》创意总监说,第一部游戏成为亲警察的游戏并不是他们的本意,并且已经对续集进行了修改。《漫威蜘蛛侠2》的开发者听取了对第一部游戏的批评,特别是对其如何表现警察的批评。
2023-06-08 14:42:00
《漫威蜘蛛侠 2》发布日期可能已经被开发者泄露了
《漫威蜘蛛侠2》的发布窗口可能是由InsomniacGames的开发团队成员意外泄露的。InsomniacGames的一名开发者可能泄露了《漫威蜘蛛侠2》的发布窗口
2023-01-17 20:43:00
更多关于科技的资讯:
“内容重构论”引短剧行业共鸣
当“反转”“爽点”不再能轻易留住观众,微短剧行业正迎来一场深层重构。到2024年中,中国微短剧用户规模已接近7亿,市场体量超过500亿元
2025-10-29 14:01:00
鲸鸿动能亮相中国国际广告节&亚洲广告大会,全场景AI驱动增长
10月24日,第32届中国国际广告节&第34届亚洲广告大会在北京举办,鲸鸿动能受邀出席,并发表主题演讲《从孤岛到共生
2025-10-29 11:21:00
如何选择适合你的视频画质修复工具
在数字时代,视频已成为我们记录生活、创作内容和保存记忆的重要载体。然而由于拍摄设备限制、保存条件或传输压缩,我们常常面临视频模糊
2025-10-29 11:22:00
精工匠心极致服务!2025年小蓝翼杯全品类服务技术比武大赛圆满落幕
10月23日,2025年“小蓝翼”杯全品类服务技术比武大赛在TCL空调武汉智能工厂举行。其中,空调品类经过30个战区初赛
2025-10-29 11:30:00
‌2025年10月27日‌——上海联舌工坊科技有限公司今日正式于杨浦区完成注册,此举被视为其深化资本市场布局的关键一步
2025-10-29 12:37:00
三星电视荣登天猫艺术电视榜单 双十一钜惠助力消费者轻松解锁艺术家居生活
在消费焕新浪潮席卷家居领域、美学需求成为当代家庭核心诉求的当下,三星凭借对前沿科技与生活美学的深度解构与融合,始终站在全球艺术电视品类发展的潮头
2025-10-29 12:40:00
河北新闻网讯(吴建春)近日,由河北天翼科贸发展有限公司(简称“河北天翼”)为一家农业融资担保公司量身打造的在线收付款业财一体化项目
2025-10-29 13:31:00
宝宝巴士回应APP出现不良广告:严处审核负责人 研发广告强制拦截功能
华商网讯 10月29日,针对“宝宝巴士App出现不良广告”一事,宝宝巴士官方微信公众号发布致歉及整改声明。根据声明,对于近期用户关注的宝宝巴士App产品跳转不良广告一事
2025-10-29 13:40:00
米兰冬奥倒计时100天 国际奥委会携手阿里巴巴首次推出五环系列首饰
2026年米兰·科尔蒂纳冬奥会开幕倒计时100天之际,奥林匹克天猫官方旗舰店独家首发米兰冬奥会系列商品。同时,国际奥委会首次推出奥林匹克五环系列首饰
2025-10-29 13:47:00
王玉宝:于商业迷途中寻一盏不灭的心灯
鲁网10月29日讯踏入儒商研究会的大门,已是一载有余。今日静坐回望,恍然惊觉,这段旅程并非寻常的“加入一个组织”,倒更像是一场在商业迷途中的精神返乡
2025-10-29 13:51:00
2025上海国际压缩机展开幕 ,美的楼宇科技赋能工业制造绿色升级
10月28日-31日,2025上海国际压缩机及设备展览会(以下简称“上海国际压缩机展”)在上海新国际博览中心举办。作为核心参展商
2025-10-29 12:41:00
深圳首宗!医疗健康数据产品场内交易,十年临床数据为手术机器人研发注入“燃料”
经过严格匿名化处理和多轮合规审查,在严格遵守隐私保护的红线下,医疗数据也可以“活”起来,成为驱动AI技术发展的“燃料”
2025-10-29 12:38:00
为进一步推动国产雪茄高质量发展,持续提升阜阳市场“懂雪茄、会养护、善营销”的零售客户雪茄经营能力,提升服务质量,重振经营信心
2025-10-29 12:39:00
富士胶片X-SPACE迎来七周年朋友月 胶片模拟色彩配方书籍特别发布
2025年10月,富士胶片(中国)投资有限公司旗下X-SPACE富士胶片影像空间(以下简称"X-SPACE")迎来成立七周年
2025-10-29 10:59:00
河北纳科生物科技有限公司专利获雄安高价值专利大赛银奖
河北新闻网讯(钟蕾)近日,推进京津冀知识产权高质量发展暨2025・雄安高价值专利大赛颁奖活动在雄安新区举行。石家庄高新区优秀创新企业河北纳科生物科技有限公司凭借其核心专利“重组人胶原蛋白的制备和产业化应用”
2025-10-29 11:11:00