• 我的订阅
  • 科技

只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早

类别:科技 发布时间:2024-07-31 09:39:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

作者介绍:宋亦仁:新加坡国立大学 ShowLab 博士研究生, 主要研究方向包括图像和视频生成, AI 安全性。

黄施捷:新加坡国立大学硕士二年级学生,目前在 Tiamat AI 任算法工程师实习生,主要研究方向是视觉生成。目前在寻找 2025 fall 博士入学机会。

最近,lvmin 带来了最新模型 Paints-UNDO。这款 AI 生成工具可以根据图片还原整个绘画过程,整个 AIGC 社区都为之震撼。

Paints-UNDO 的演示 demo。

早在 1 个月前,NUS,SJTU,Tiamat 等机构联合已经发布了一篇做类似任务的工作 ProcessPainter: Learn Painting Process from Sequence Data。Paints-UNDO 技术报告还未公布,让我们一起看看 ProcessPainter 是如何实现的吧!

论文标题:ProcessPainter: Learn Painting Process from Sequence Data 论文链接:https://arxiv.org/pdf/2406.06062 代码链接:https://github.com/nicolaus-huang/ProcessPainter

翻开任意一本绘画教学书籍,都能看到按照步骤画画的指导。然而,在生成式 AI 时代,通过去噪过程完成图像生成和人类画家绘画过程完全不同,AI 画画的过程无法直接用于绘画教学。

为了解决这一问题,ProcessPainter 通过在合成数据和人类画师绘画视频上训练时序模型,首次实现了让扩散模型生成绘画过程。此外,不同题材、画师的绘画过程差异巨大,风格迥异。然而,目前很少有研究将绘画过程作为研究对象。论文作者在预训练的 Motion Model 基础上,通过在特定画师的少量绘画序列上训练 Motion LoRA,学习画师的绘画技法。

深入解读 ProcessPainter 的核心技术

只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早

1. 时序注意力机制(Temporal Attention)

用时序注意力学习生成绘画过程是 ProcessPainter 的核心创新。绘画序列生成的关键是,整个序列是同一张图从抽象到具体的变化过程, 前后帧在内容和构图上是一致且相关的。为了实现这一目标,作者为 Unet 引入了来自 AnimateDiff 的时序注意模块。该模块位于每一层扩散层之后,通过帧间自注意机制来吸收不同帧的信息,确保整个序列的平滑过渡和连续性。

实验证明,该训练策略可以在帧之间保持一致的绘画效果。绘画过程生成和视频生成任务不同之处在于,绘画过程前后变化更加剧烈,首帧是完成度很低的色块或线稿,而尾帧是完整的画作,这对模型训练带来挑战。为此,论文作者先在大量合成数据集上预训练时序模块,让模型学习各种各种 SBR(Stroke-based rendering) 方法的逐步绘画过程,再用数十个艺术家的绘画过程数据训练 Painting LoRA 模型。

2. 艺术品复制网络(Artwork Replication Network)

绘画实践中,我们更希望知道一幅作品是如何画出来的,以及如何从半成品绘画继续细化以达到期待的成品效果。这就引申出了两个任务:绘画过程重建和补全。鉴于这两个任务都有图像的输入,论文作者提出了艺术品复制网络(Artwork Replication Network)。

这一网络设计能够处理任意帧的图像输入,灵活控制绘画过程的生成。与之前的可控性生成方法类似,论文作者引入一个 ControlNet 的变体,来控制生成结果中的特定帧与参考图一致。

3. 合成数据集与训练策略

由于真实绘画过程数据较难获取,数量不足以支持大规模训练。为此,论文作者构建了用于预训练的合成数据集。

具体采用了三种合成数据方法:

1. 采用 Learn to Paint 来产生半透明贝赛尔曲线笔触的绘画序列;

2. 通过自定义笔触,用 Neural style painting 生成油画风格和中国画风格的绘画序列。

3. 上述 SBR(Stroke base painting)方法是从粗到细的拟合一张目标图像, 意味着允许对于已经绘画的部分进行覆盖和修改,然而很多绘画种类,如中国画和雕刻,由于材料的限制,无法大幅度修改已经完成的部分, 绘画过程是分区域完成的。为此,论文作者采用 SAM(segment anything) 和显著性检测方法,从空白画布逐个子区域添加内容,先绘制显著性物体, 然后逐步向背景扩散,从而合成绘画过程视频。

在训练阶段,论文作者首先在合成数据集上预训练了 Motion Model,然后冻结了 Motion Model 的参数并训练了 Artwork Replication Network。在微调绘画 LoRA 模型时,第一步只使用最终帧来微调空间注意力 LoRA,以防止半成品绘画训练集损害模型的生成质量。

此后,论文作者冻结了空间注意力 LoRA 的参数,并使用完整的绘画序列微调时间注意力 LoRA。在推理阶段,当从文本生成绘画序列时,ProcessPainter 不使用艺术品复制网络。在绘画过程重建和补全任务中,ProcessPainter 使用艺术品复制网络接收特定帧的参考输入。为了确保生成的绘画序列中的帧尽可能与输入图像匹配,ProcessPainter 采用了 DDIM 反演技术来获取参考图像的初始噪声,并在 UNet 中替换特定帧的初始噪声。

ProcessPainter 效果展示

在合成数据集上训练的 ProcessPainter base model 可以生成过程上有风格差异的绘画序列。

只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早

通过在少量人类画师的绘画序列上分别训练 Motion Lora,ProcessPainter 可以学习特定画师的绘画过程和风格。

只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早

指定参考图像,ProcessPainter 可以将完成的艺术品逆向解构为绘画步骤,或者从半成品推演出完整的画作。

只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早

这些技术组件的结合,让 ProcessPainter 不仅能够从文本生成绘画过程,还能将参考图转换成绘画序列,或是对未完成的画作进行补全。这无疑为艺术教育提供了新工具,同时也为 AIGC 社区开辟了新赛道。也许不久的将来,Civitai 上会有各种模拟人类画师绘画过程的不同 Lora 出现。

更多细节,欢迎阅读论文原文或访问 Github 项目主页。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-31 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...。然而次月,王某发现该图片出现在武汉某科技公司的AI绘画训练营广告中,被用于AI绘画课程售卖。王某认为该公司侵权,将其告上了法庭。用AI创作的内容能否被视为“作品”?版权又到
2025-02-28 09:34:00
...画核心阅读输入一段话,“绘”出一幅画——人工智能的绘画本领,吸引众多职业画师和零基础用户尝鲜。人工智能绘画的本质是计算,接受“语言描述”指令后根据自身的理解还原出图像。未来,
2022-12-23 05:21:00
谷歌 AI 绘画 4 大牛携手创业,天使估值 7 个亿
...家获悉,这回跟谷歌saybyebye的,是文生图核心团队——AI绘画模型 Imagen论文的四位核心作者,出走目的是要搞自己的AI公司
2023-03-04 23:21:00
我们尝试让绘画ai成为负责插图的新同事
技术正在突飞猛进。随着讨论热度逐渐褪去,“AI绘画”的话题在最近这段时间似乎已经渐渐不再掀起波澜,却已有不少游戏公司悄无声息地将AI绘画加入了自己的工作流程中。在探索AI绘画工具
2022-12-29 14:54:00
本文转自:解放日报用AI绘画的人,享有著作权吗简工博本报记者 简工博当并不具备绘画创作能力的人,通过文字描述,利用人工智能软件生成出一张图片,那么他是否拥有这张图片的著作权?自A
2023-12-14 05:44:00
美术的教育作用体现在创作过程中,而AI恰恰跳脱了过程
...利用人工智能技术来生成内容,去年底相继风靡全网的AI绘画和聊天机器人模型ChatGPT都属于它的分支,至今热度不退,仍处高歌猛进的当口。除了扎堆体验当作娱乐消遣工具的看客,还
2023-02-12 09:05:00
ai绘画侵权实锤,扩散模型可能记住你的照片
AI绘画侵权,实锤了!最新研究表明,扩散模型会牢牢记住训练集中的样本,并在生成时“依葫芦画瓢”。也就是说,像StableDiffusion生成的AI画作里,每一笔背后都可能隐藏着
2023-02-03 22:00:00
AI生成图片侵权第一案宣判:本质上仍是人利用工具进行创作
...片是否构成作品,即涉案人工智能技术生成图片也就是AI绘画图片是否具备独创性,是否体现了人的独创性智力投入,是否应当被认定为作品,受到著作权法保护。法院认为,从原告构思涉案图片
2023-12-12 11:43:00
AI生成内容是否享有著作权?要看这两点→
...件。画面中的是原告李先生,他说,他从几年前开始对AI绘画,也就是人工智能绘画产生兴趣。平日里,他会将一些自己用AI绘画软件制作的图片,发布在网络平台账号上。而在2022年3月
2023-12-21 09:32:00
更多关于科技的资讯:
引领健康储鲜,澳柯玛风冷变频冷柜斩获“云鼎奖”
鲁网9月5日讯近日,奥维云网2025数字生态大会在杭州闭幕。作为家电行业极具影响力的年度盛会,现场汇聚了众多家电领军品牌
2025-09-05 13:38:00
周黑鸭携四大产品线矩阵破局全场景消费,构建卤味行业新范式
齐鲁晚报·齐鲁壹点 记者 张召旭在近期举办的行业展会上,周黑鸭凭借前瞻性战略布局引发行业广泛关注——品牌首次系统推出针对多元消费需求与渠道特性开发的四大产品线
2025-09-05 11:00:00
当“保温杯里泡枸杞”从段子变成日常,当“中药房下午茶”取代美式咖啡成为年轻人新宠,老字号品牌们逐渐发现:年轻人不是在买一杯饮料
2025-09-05 11:02:00
本报记者 魏 静 □ 忽 艳在国内鼓励创新、倡导在世界舞台展示中国实力产品与个人实力的大环境下,越来越多中国品牌凭借创新精神与卓越品质
2025-09-05 11:02:00
近日,阳光人寿秦皇岛中支在益寿园开展“银发课堂”特色活动,为老年群体送上内容丰富的金融知识。活动现场,工作人员通过生动的案例
2025-09-05 09:36:00
36氪首发|掘金“微醺”社交经济,精酿品牌「TAGSIU」获近千万 Pre-A 轮融资
作者 | 李小霞36 氪获悉,精酿品牌「TAGSIU 醍宿酿造」(下称“TAGSIU”)已完成近千万 Pre-A轮融资
2025-09-04 22:09:00
从形态突破到生态跃迁:华为三折叠的「鸿蒙时刻」
三折叠这个赛道,或许只有华为能够超越华为。华为Mate XT 非凡大师发布一年之后,三折叠这片“无人区”,仍然只有华为的身影
2025-09-05 00:13:00
大众网记者 张田夏荫 实习记者 张智尧 报道海信集团总裁、海信视像科技股份有限公司董事长于芝涛正式以大赛形象大使与推介大使的身份
2025-09-04 10:04:00
第26届GOPS全球运维大会落幕,AI Infra赋能运维转型
2025年6月28日,为期两天的第26届GOPS全球运维大会暨研运数智化技术峰会在北京市圆满落幕。作为国内首个运维行业盛会
2025-09-04 11:33:00
三联家电“伙拼9.12”权益全解析!三重补贴省心省钱嗨购金秋
鲁网9月4日讯金秋家装季撞上三联家电第十一季“伙拼9.12”大型内购福利会!这场被万千家庭期待的消费盛宴即将引爆全城!多重补贴
2025-09-04 11:33:00
灵动集团旗下欢米粒心理:新学期,为青少年心理护航——以专业体系构建成长防护网
在青少年心理健康服务需求进入 “刚性增长期” 的当下,资质与专业双轮驱动成为行业发展的核心支撑。灵动生活集团作为《互联网心理服务・心理测评服务通用规范》国家标准制定委员单位
2025-09-04 11:55:00
金秀之光,宏瑶传承千年瑶浴的现代创新之路
金秀大瑶山的采药人每日清晨踏遍青山,采集当地草药。这些草药通过广西宏瑶生物科技股份有限公司(以下简称“宏瑶股份”)的现代研发与技术加工
2025-09-04 11:55:00
井壁稳定“智能分析师”:Biot - Coussy PORORI团队研发井壁失稳风险分析系统
在深层能源勘探开发不断推进的背景下,钻井工程常面临地质条件复杂、井下环境多变等严峻挑战。其中,井壁失稳是导致钻井周期延长
2025-09-04 12:08:00
锦纶新材料首秀!南山智尚亮相2025中国国际纺织面料及辅料(秋冬)博览会
9月2日至4日,2025中国国际纺织面料及辅料(秋冬)博览会在上海国家会展中心举行。南山智尚(股票代码:300918)及旗下锦纶新材料公司共同亮相
2025-09-04 12:11:00
36氪2025 AI Partner百业大会 | 思必驰定义对话式AI新价值
AI浪潮席卷千行百业,“中国式方案”正在无声地改写着全球科技产业版图,实现“AI+”与千行百业的深度赋能。日前,36氪与中欧国际工商学院联合主办2025 AI Partner百业大会
2025-09-04 13:56:00