• 我的订阅
  • 科技

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

类别:科技 发布时间:2024-11-01 09:27:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

本文的作者主要来自于浙江大学和字节跳动。第一作者是浙江大学计算机学院的博士生叶振辉,导师为赵洲教授,主要研究方向是说话人视频合成,并在 NeurIPS、ICLR、ACL 等会议发表相关论文。共一作者是来自浙江大学计算机学院的硕士生钟添芸。

个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。目前业界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型,虽然这种小模型能够有效地学到说话人的外表和说话风格,这种做法存在低训练效率、低样本效率、低鲁棒性的问题。相比之下,近年来许多工作专注于单图驱动的通用数字人大模型,这些模型仅需单张图片输入即可完成数字人制作,但仍存在外表相似度较低、无法模仿目标人说话风格等问题。

为了连接个性化数字人小模型和单图驱动通用数字人大模型两个领域之间的空白,浙江大学与字节跳动提出了 MimicTalk 算法。通过(1)将单图驱动的通用 3D 数字人大模型 Real3D-Portrait (ICLR 2024) 适应到目标数字人的高效微调策略和(2)具有上下文学习能力的人脸动作生成模型,MimicTalk 可以生成相比原有方法更高质量、更具表现力的数字人视频。此外,单个数字人模型的训练时间可以被压缩到 15 分钟以内,相比现有最高效的同类方法快了 47 倍。

MimicTalk 算法被人工智能顶级会议 NeurIPS 2024 录用,目前已开放源代码和预训练权重。

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

论文标题:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes 论文链接:https://arxiv.org/pdf/2410.06734 项目主页:https://mimictalk.github.io/ 代码链接:https://github.com/yerfor/MimicTalk

话不多说直接看效果,以下视频中的数字人模型都通过从 3D 数字人大模型进行 1000 步微调(5 分钟训练时间)得到。

模型技术原理

深悉 MimicTalk 模型的内在原理,还要回到开头提到的个性化数字人两个核心目标:(1)外表上与真人相似;(2)说话风格上与真人相似。

MimicTalk 分别使用(1)基于通用 3D 数字人大模型微调的高质量人脸渲染器和(2)一个具有上下文学习能力的人脸动作生成模型来实现它们。

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

图 2. MimicTalk 包含一个高质量人脸渲染器(紫色)和一个能够模仿说话风格的动作生成器(蓝色)

对于第一个问题,传统方法通常从头训练一个小规模的 NeRF 模型来记忆目标人的外表特征,但这种做法通常导致较长的训练时间(数个小时)、较高的数据量要求(数分钟)、较低的鲁棒性(对极端条件无法输出正确的结果)。针对这一问题,团队首次提出采用一个单图驱动的通用 3D 数字人大模型作为基础模型,并提出了一个「动静结合」的高效率微调方案。

他们发现通用大模型的输出通常存在牙齿、头发等静态细节不足,且肌肉运动等动态细节不真实的问题。因此针对静态细节和动态细节的特性设计了动静结合的微调方案。

具体来说,研究者发现现有的 3D 数字人通用模型通常会将 3D 人脸的静态细节储存在一个 3D 人脸表征(tri-plane)中作为模型的输入,而 3D 人脸的动态细节,则通过模型内部的参数进行储存。因此,MimicTalk 在个性化数字人渲染器的训练过程中,不仅会更新储存静态细节的 3D 人脸表征,还通过 LoRA 技术对通用模型的参数进行了可拆卸的高效微调。

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

图 2. 将通用 3D 数字人大模型适应到单个目标人,动静结合的高效微调方案

在实现图像上与真人的高度相似后,下一个问题是如何生成与真人说话风格相似的面部动作。传统方法通常会额外训练一个说话风格编码器,但是由于模型内部信息瓶颈的存在通常会性能损失。与之相比,受启发大语言模型、语音合成等领域的启发,MimicTalk 首次提出从上下文中学习目标人说话风格的训练范式。在训练阶段,Flow Matching 模型通过语音轨道和部分未被遮挡的人脸动作轨道的信息,对被遮挡的人脸动作进行去噪。在推理阶段,给定任意音频 - 视频对作为说话人风格提示,模型都能生成模仿该说话风格的人脸动作。

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

图 3. 能在上下文中学习目标人说话风格的人脸动作生成模型

模型的应用前景

总体来看,MimicTalk 模型首次实现了高效率的个性化精品数字人视频合成。可以预见的是,随着技术的不断迭代、普及,在智能助手、虚拟现实、视频会议等多个应用场景中都将会出现虚拟人的身影。而借助 MimicTalk 算法,个性化高质量数字人的训练成本被「打了下去」,人们将会享受到更真实、更舒适的交互体验。随着各个领域的大模型技术的兴起,拥抱大模型的超强能力并与垂直领域中的特殊场景、需求相结合,已经成为了技术演进的大势所趋。而 MimicTalk 模型为后续基于数字人通用模型的个性化数字人算法研究工作提供了参考。但现阶段 MimicTalk 也并不是完美无缺的,由于依赖通用大模型的结果作为初始化,对基础模型的质量有较高的要求,此外从推理效率上看与现有小模型还存在一定差距。

总而言之,过去几年,随着个性化数字人技术的不断进步,口型精度、图像质量已然不断提高;而 MimicTalk 模型的提出,进一步解决了制约个性化数字人的训练成本问题。让我们一同期待虚拟人技术的加速发展,用户也将获得更加极致的视觉体验和生活便利。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-01 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

猿辅导集团副总裁程群:海豚AI学,AI+教育助力个性化高效学习
...你不懂的地方,可以随时跟他交流提问,学习内容变得更高质量、可互动。”大模型解决了教育的个性化、高质量和大规模的三角难题,海豚AI学通过基于学习者的学习能力,智能定制学习方案,
2024-10-29 16:31:00
AI大模型助力金融高质量发展!马上消费“天镜大模型”问世
AI大模型助力金融高质量发展!马上消费“天镜大模型”问世 每一轮科技革命必将带来全新的发展模式,在新一轮全球科技革命周期中,以大模型技术为代表的人工智能催生出全新的生产方式是历史
2023-08-30 16:12:00
深度结合行业场景需求,苏州思必驰发布行业语言大模型
...作伙伴共建生态,助力打造中国AI命运共同体,推动经济高质量发展。与时偕行:语言大模型+综合全链路技术作为本次发布会的核心,俞凯为大家深入浅出地介绍了思必驰语言大模型及对话式A
2023-07-13 21:02:00
...理体系与治理能力现代化。一、 内容科技推动内容产业高质量发展2023年是习近平总书记作出“加快传统媒体和新兴媒体融合发展”重要指示十周年,内容科技为媒体融合发展注入强大动力的
2024-04-08 16:49:00
AIGC落地应用:腾讯云如何助力产业智能化升级?
...向更复杂的动作、情感交互等方向探索。展望未来,结合高质量的交互能力将是未来数字人发展的重要方向。 腾讯混元大模型赋能AIGC应用落地 推进产业智能化升级 腾讯云大模型产
2024-06-26 12:45:00
...精准教学、大规模因材施教和个性化学习,助力实现教育高质量发展。大模型技术推动全社会催生新产业、新模式、新动能大模型技术的颠覆性的前沿技术属性,以及广泛的行业赋能特性,让其能够
2024-01-03 07:20:00
AI潮起 共筑数智之基
...台已汇聚并开放超30个“自有+开源+生态”大模型、超20个高质量数据集,后续将逐步开放百个大模型、百个数据集和百个AI应用,带动我国大模型产业生态融通共赢。开放三大基地打造全
2024-05-25 07:21:00
华为云MetaStudio全新升级,盘古数字人大模型赋能数字内容生产
...题论坛上,华为云媒体服务部规划总监甘漠再次对盘古大模型重塑数字内容生产进行深度解读,并邀请业内伙伴对行业应用场景及实践案例进行分享。MetaStudio数字内容生产线,快速打
2023-07-09 22:00:00
让“私人助理”可随身携带
...】◎实习记者 吴叶凡编者按 在我国经济由高速增长转向高质量发展的历史进程中,数字化、智能化的作用不断凸显。数字化是构筑国家竞争新优势的基础,智能化则是新一轮科技革命和产业变革
2024-01-08 02:05:00
更多关于科技的资讯: