• 我的订阅
  • 科技

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

类别:科技 发布时间:2024-06-28 09:41:00 来源:机器之心Pro

机器之心发布

机器之心编辑部

日前,旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、表情包、rap)文件,即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度,取决于给定的驱动视频的长度。与阿里 EMO、微软 VASA 等最新涌现的 AI 视频模型不同,旷视 MegActor 将采用开源的方式,提供给开发者社区使用。MegActor 能够呈现出丝毫毕现的效果,面部细节更加丰富自然,画质更出色。

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

为了进一步展示其泛化性,MegActor 甚至可以让 VASA 里面的人物肖像和它们的视频彼此组合生成,得到表情生动的视频生成结果。

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650923565&idx=2&sn=e52894d202ab6b19524044a0c73fc6f7&chksm=84e42653b393af455ebee3f2596d218af2d781bd267d6e45224a7853cff8333eca4229c9fa8a&token=924877127&lang=zh_CN#rd

即使是对比阿里 EMO 的官方 Case,MegActor 也能生成近似的结果。

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650923565&idx=2&sn=e52894d202ab6b19524044a0c73fc6f7&chksm=84e42653b393af455ebee3f2596d218af2d781bd267d6e45224a7853cff8333eca4229c9fa8a&token=924877127&lang=zh_CN#rd

总的来说,不管是让肖像开口说话,让肖像进行唱歌 Rap,还是让肖像模仿各种搞怪的表情包,MegActor 都可以得到非常逼真的生成效果。

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

论文:https://arxiv.org/abs/2405.20851 代码地址:https://github.com/megvii-research/megactor 项目地址:https://megactor.github.io/

MegActor 是旷视研究院的最新研究成果。旷视研究院,是旷视打造的公司级研究机构。旷视研究院旨在通过基础创新突破 AI 技术边界,以工程创新实现技术到产品的快速转化。经过多年发展,旷视研究院已成为全球规模领先的人工智能研究院。

在目前的人像视频生成领域,许多工作通常使用高质量的闭源自采数据进行训练,以追求更好的效果。而旷视研究院始终坚持全面开源,确保实际效果的可复现性。MegActor 的训练数据全部来自公开可获取的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些令人惊艳的效果。

为了完全复刻原始视频的表情和动作,MegActor 采用了原始图像进行驱动,这与多数厂商使用 sketch、pose、landmark 的中间表示皆然不同,能够捕捉到细致的表情和运动信息。

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

旷视科技研究总经理范浩强表示,在 AI 视频生成领域,我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号,同时生成视频相较于原肖像的保真程度也不尽如人意。通过一系列研究发现,使用原视频进行驱动,不仅将帮助用户降低控制信号的门槛,更能生成更加保真且动作一致的视频。

具体来说,MegActor 主要由两个阶段构成:

使用了一个 ReferenceNet 对参考图像进行特征提取,负责得到参考图像的外观和背景等信息; 使用了一个 PoseGuider,对输入的视频进行运动和表情信息提取,负责将运动和表情信息迁移到参考图像上。

尽管相较于使用音频或 landmark 等表示方式,使用原始视频进行驱动能带来更加丰富的表情细节和运动信息。然而,使用原始视频进行驱动依然存在两大核心技术挑战:一是 ID 泄露问题;二是原始视频中的背景和人物皱纹等无关信息会干扰影响合成表现。

为此,MegActor 开创性地采用了条件扩散模型。首先,它引入了一个合成数据生成框架,用于创建具有一致动作和表情但不一致身份 ID 的视频,以减轻身份泄露的问题。其次,MegActor 分割了参考图像的前景和背景,并使用 CLIP 对背景细节进行编码。这些编码的信息随后通过文本嵌入模块集成到网络中,从而确保了背景的稳定性。

在数据训练方面,旷视研究院团队仅使用公开的数据集进行训练,处理了 VFHQ 和 CeleV 数据集进行训练,总时长超过 700 小时。同时,为了避免 ID 泄露问题,MegActor 还使用换脸和风格化方法 1:1 生成合成数据,实现表情和动作一致、但 ID 不一致的数据。此外,为了提高对大范围动作和夸张表情的模仿能力,团队使用注视检测模型对数据进行处理,获取大约 5% 的高质量数据进行 Finetune 训练。

通过采用一系列新的模型框架和训练方法,旷视研究院团队仅使用了不到 200 块 V100 显卡小时的训练时长,最终实现的具体特性包括:

可以根据输入的视频生成任意持续时间的模仿视频,同时保证角色身份的一致性 支持各种驱动视频,如演讲、唱歌、表情包等 支持不同的画风(照片、传统绘画、漫画、AI 数字人等)

与音频生成的方法相比,MegActor 生成的视频,不仅能确保表情和动作一致,更能达到同样的自然程度。

目前,MegActor 已经完全开源,供广大开发者和用户即开即用。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-28 12:45:18

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

怎么把哈利波特中的活照片搬运到现实?
...过吗?这就是快手团队自研的“活照片”功能,不仅能把人像变活,甚至还能将猫狗等小动物的静态图像驱动起来,可以眨眼、摇晃脑袋,还可以讲话。目前,该技术已应用到“噗叽”App。此外
2024-01-16 16:39:00
音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
...运动信息依赖,抛弃了空间模版的限制,最终生成更好的人像运动。这就不难理解为什么 Loopy 可以仅仅依靠音频,不需要任何空间辅助信号就可以生成自然逼真的人像视频了。除此以外,
2024-09-13 13:34:00
刚刚,重磅发布!阿里、腾讯、科大讯飞在列
...、抖音短视频(APP)等应用于图像、视频生成场景,基于人像理解技术和视频剪辑技术实现对用户上传图片或视频的渲染处理与格式转换
2023-06-20 17:00:00
摄影界的ChatGPT来了!百度网盘推出AI摄影创意工具超能画布
...成一个线上影楼。在大模型等人工智能技术的发展之下,人像摄影行业终于迎来了自己的“ChatGPT”。近日,百度网盘推出了专注于人像摄影的AI创意生成工具——超能画布。通过百度自
2024-04-19 10:32:00
AI拜年火了,通义千问上线一张照片生成拜年视频
...定制全家福照片。目前国内外已经涌现了一批优秀的单人人像生成应用,但都无法满足全家福这一多人人像生成需求。相比单人人像生成,多人人像生成难度更高、技术更复杂。针对该问题,阿里通
2024-02-05 13:37:00
智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车
...效果,以下是几个官方放出的文生和图生视频案例,覆盖人像、动物、3D卡通等场景:从Demo来看,清影的生成效果虽然相比Sora等还有一定进步空间,但就整体而言流畅度、运动幅度等
2024-07-27 09:18:00
“清华系Sora”全球上线!首发实测:多镜头切换强到爆,30秒生成大片
...说墨镜摘没摘吧(doge)。我又上传了一张举着摄像机的人像照片,输入提示词:男孩转身面向镜头。在保持发型、服装一致性的前提下,Vidu不仅让人物面向了镜头,还发挥想象力为他生
2024-07-31 09:37:00
史上最丑AI生图爆火!成了赚钱好生意,Remini玩法解读
...AI仅30秒后就生成了另一种卡通效果的猫咪。Remini在生成人像的效果上很受用户喜爱,有人觉得是丑得上头,有人觉得呆萌治愈。当智东西上传了一张旅游照,只见AI基本还原了图中
2024-05-07 09:25:00
智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
...团队自研打造。自从快手可灵 AI 火爆海内外,国内视频生成也如同 2023 年的文本大模型一样,越来越卷了。刚刚,又一视频生成大模型产品宣布正式上线:智谱 AI 正式发布「清
2024-07-27 09:27:00
更多关于科技的资讯: