• 我的订阅
  • 科技

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

类别:科技 发布时间:2024-11-01 09:27:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

本文的作者主要来自于浙江大学和字节跳动。第一作者是浙江大学计算机学院的博士生叶振辉,导师为赵洲教授,主要研究方向是说话人视频合成,并在 NeurIPS、ICLR、ACL 等会议发表相关论文。共一作者是来自浙江大学计算机学院的硕士生钟添芸。

个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。目前业界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型,虽然这种小模型能够有效地学到说话人的外表和说话风格,这种做法存在低训练效率、低样本效率、低鲁棒性的问题。相比之下,近年来许多工作专注于单图驱动的通用数字人大模型,这些模型仅需单张图片输入即可完成数字人制作,但仍存在外表相似度较低、无法模仿目标人说话风格等问题。

为了连接个性化数字人小模型和单图驱动通用数字人大模型两个领域之间的空白,浙江大学与字节跳动提出了 MimicTalk 算法。通过(1)将单图驱动的通用 3D 数字人大模型 Real3D-Portrait (ICLR 2024) 适应到目标数字人的高效微调策略和(2)具有上下文学习能力的人脸动作生成模型,MimicTalk 可以生成相比原有方法更高质量、更具表现力的数字人视频。此外,单个数字人模型的训练时间可以被压缩到 15 分钟以内,相比现有最高效的同类方法快了 47 倍。

MimicTalk 算法被人工智能顶级会议 NeurIPS 2024 录用,目前已开放源代码和预训练权重。

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

论文标题:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes 论文链接:https://arxiv.org/pdf/2410.06734 项目主页:https://mimictalk.github.io/ 代码链接:https://github.com/yerfor/MimicTalk

话不多说直接看效果,以下视频中的数字人模型都通过从 3D 数字人大模型进行 1000 步微调(5 分钟训练时间)得到。

模型技术原理

深悉 MimicTalk 模型的内在原理,还要回到开头提到的个性化数字人两个核心目标:(1)外表上与真人相似;(2)说话风格上与真人相似。

MimicTalk 分别使用(1)基于通用 3D 数字人大模型微调的高质量人脸渲染器和(2)一个具有上下文学习能力的人脸动作生成模型来实现它们。

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

图 2. MimicTalk 包含一个高质量人脸渲染器(紫色)和一个能够模仿说话风格的动作生成器(蓝色)

对于第一个问题,传统方法通常从头训练一个小规模的 NeRF 模型来记忆目标人的外表特征,但这种做法通常导致较长的训练时间(数个小时)、较高的数据量要求(数分钟)、较低的鲁棒性(对极端条件无法输出正确的结果)。针对这一问题,团队首次提出采用一个单图驱动的通用 3D 数字人大模型作为基础模型,并提出了一个「动静结合」的高效率微调方案。

他们发现通用大模型的输出通常存在牙齿、头发等静态细节不足,且肌肉运动等动态细节不真实的问题。因此针对静态细节和动态细节的特性设计了动静结合的微调方案。

具体来说,研究者发现现有的 3D 数字人通用模型通常会将 3D 人脸的静态细节储存在一个 3D 人脸表征(tri-plane)中作为模型的输入,而 3D 人脸的动态细节,则通过模型内部的参数进行储存。因此,MimicTalk 在个性化数字人渲染器的训练过程中,不仅会更新储存静态细节的 3D 人脸表征,还通过 LoRA 技术对通用模型的参数进行了可拆卸的高效微调。

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

图 2. 将通用 3D 数字人大模型适应到单个目标人,动静结合的高效微调方案

在实现图像上与真人的高度相似后,下一个问题是如何生成与真人说话风格相似的面部动作。传统方法通常会额外训练一个说话风格编码器,但是由于模型内部信息瓶颈的存在通常会性能损失。与之相比,受启发大语言模型、语音合成等领域的启发,MimicTalk 首次提出从上下文中学习目标人说话风格的训练范式。在训练阶段,Flow Matching 模型通过语音轨道和部分未被遮挡的人脸动作轨道的信息,对被遮挡的人脸动作进行去噪。在推理阶段,给定任意音频 - 视频对作为说话人风格提示,模型都能生成模仿该说话风格的人脸动作。

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型

图 3. 能在上下文中学习目标人说话风格的人脸动作生成模型

模型的应用前景

总体来看,MimicTalk 模型首次实现了高效率的个性化精品数字人视频合成。可以预见的是,随着技术的不断迭代、普及,在智能助手、虚拟现实、视频会议等多个应用场景中都将会出现虚拟人的身影。而借助 MimicTalk 算法,个性化高质量数字人的训练成本被「打了下去」,人们将会享受到更真实、更舒适的交互体验。随着各个领域的大模型技术的兴起,拥抱大模型的超强能力并与垂直领域中的特殊场景、需求相结合,已经成为了技术演进的大势所趋。而 MimicTalk 模型为后续基于数字人通用模型的个性化数字人算法研究工作提供了参考。但现阶段 MimicTalk 也并不是完美无缺的,由于依赖通用大模型的结果作为初始化,对基础模型的质量有较高的要求,此外从推理效率上看与现有小模型还存在一定差距。

总而言之,过去几年,随着个性化数字人技术的不断进步,口型精度、图像质量已然不断提高;而 MimicTalk 模型的提出,进一步解决了制约个性化数字人的训练成本问题。让我们一同期待虚拟人技术的加速发展,用户也将获得更加极致的视觉体验和生活便利。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-01 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

猿辅导集团副总裁程群:海豚AI学,AI+教育助力个性化高效学习
...你不懂的地方,可以随时跟他交流提问,学习内容变得更高质量、可互动。”大模型解决了教育的个性化、高质量和大规模的三角难题,海豚AI学通过基于学习者的学习能力,智能定制学习方案,
2024-10-29 16:31:00
AI大模型助力金融高质量发展!马上消费“天镜大模型”问世
AI大模型助力金融高质量发展!马上消费“天镜大模型”问世 每一轮科技革命必将带来全新的发展模式,在新一轮全球科技革命周期中,以大模型技术为代表的人工智能催生出全新的生产方式是历史
2023-08-30 16:12:00
青大附中、新世纪学校对接DeepSeek 跻身国内教育人工智能应用第一梯队
...新世纪的优质教育教学资源形成有效共享,以推动教育更高质量发展?经过多轮研究、探讨、沟通,2024年12月24日,华青教育集团与北京师范大学正式签约,启动生成式人工智能教育大模
2025-03-10 17:29:00
深度结合行业场景需求,苏州思必驰发布行业语言大模型
...作伙伴共建生态,助力打造中国AI命运共同体,推动经济高质量发展。与时偕行:语言大模型+综合全链路技术作为本次发布会的核心,俞凯为大家深入浅出地介绍了思必驰语言大模型及对话式A
2023-07-13 21:02:00
...理体系与治理能力现代化。一、 内容科技推动内容产业高质量发展2023年是习近平总书记作出“加快传统媒体和新兴媒体融合发展”重要指示十周年,内容科技为媒体融合发展注入强大动力的
2024-04-08 16:49:00
AIGC落地应用:腾讯云如何助力产业智能化升级?
...向更复杂的动作、情感交互等方向探索。展望未来,结合高质量的交互能力将是未来数字人发展的重要方向。 腾讯混元大模型赋能AIGC应用落地 推进产业智能化升级 腾讯云大模型产
2024-06-26 12:45:00
...精准教学、大规模因材施教和个性化学习,助力实现教育高质量发展。大模型技术推动全社会催生新产业、新模式、新动能大模型技术的颠覆性的前沿技术属性,以及广泛的行业赋能特性,让其能够
2024-01-03 07:20:00
浪潮数字商业发布基于大模型的 数字员工3.0解决方案 -- 金叶智系列 数字化转型解决方案
...效率、优化管理决策,助力烟草行业在数字化浪潮中实现高质量发展。六大垂直业务智能体浪潮数字商业为烟草行业量身定制了六大垂直业务智能体:智问、智行、智享、智库、智识、智投,精准覆
2025-03-03 14:42:00
AI潮起 共筑数智之基
...台已汇聚并开放超30个“自有+开源+生态”大模型、超20个高质量数据集,后续将逐步开放百个大模型、百个数据集和百个AI应用,带动我国大模型产业生态融通共赢。开放三大基地打造全
2024-05-25 07:21:00
更多关于科技的资讯:
天眼记者Vlog|2025数博会抢先体验
8月27日下午两点,中国国际大数据产业博览会(以下简称“数博会”)专业展在贵阳市国际会议展览中心隆重举行开馆仪式,正式拉开2025数博会的序幕
2025-08-28 06:03:00
清晨7:30,当手机铃声准时响起,拿起手机查看天气预报与空气质量指数——这是一天中我们与大数据的第一次相遇。一次手机支付
2025-08-28 06:03:00
LV美妆精品全球首店落户南京上半年我市共开出首店超200家,其中江苏及以上首店超43%南报网讯(记者黄琳燕)南京首店上新
2025-08-28 07:37:00
大多降价千元左右,有的品牌降了四五千元中高档自行车价格:从“居高不下”到“集体跳水”□南京日报/紫金山新闻记者王国俊近年来
2025-08-28 07:37:00
南报网讯(通讯员张炎张烨陶炎记者徐宁)记者昨天从扬子石化获悉,该公司不久前成功通过裂解炉燃料系统回收碳四,实现资源循环再利用
2025-08-28 07:37:00
河北日报讯(张辉、王继军)日前,由阿特钚锐秦皇岛科技有限公司(以下简称“阿特钚锐公司”)自主研制的国内最大振幅三质体电磁振动给料机发往上海
2025-08-28 07:51:00
首届炒菜机器人大赛精彩回顾 添可食万星厨彰显智能烹饪科技实力
近日,一场汇聚了政、产、学、研顶尖力量“首届中国炒菜机器人大赛暨首都共享中央厨房产业峰会”在北京平谷隆重举行。本次大赛由中国食品工业协会与北京市平谷区人民政府联合主办
2025-08-27 08:54:00
山推(德州)公司:靠“智造”省出大效益!成本降30%销售额反增15%
鲁网8月26日讯(记者 赵洪斌 实习记者 李安琦)8月26日,德州市举行“产业链上的山东好品牌”系列记者见面会第四场,聚焦高端装备产业链
2025-08-27 09:02:00
欧瑞电子:全国60%超算中心都用它!三年营收增速超40%
鲁网8月26日讯(记者 吴美琳 实习记者 李安琦)8月26日,德州市举行“产业链上的山东好品牌”系列记者见面会第四场,聚焦高端装备产业链
2025-08-27 09:03:00
吉镜头|高清大图!第十五届中国—东北亚博览会展馆一一看过来
第十五届中国—东北亚博览会开幕在即A2馆内的吉林市展馆 A2馆内的延边展馆A2馆内的辽源展馆 小米汽车展馆布置完毕特斯拉赛博越野旅行车已经抵达现场 印度尼西亚展馆正在进行最
2025-08-27 09:13:00
近 日 ,DeepSeek发 布DeepSeek—V3.1,基于下一代国产芯片训练。DeepSeek—V3.1采用UE8M0FP8精度训练
2025-08-27 09:14:00
从家庭式代工坊到“厦门品牌” 厦门制造“衣”鸣惊人
独立设计师王在实位于红顶艺术社区的工作室。时装工作室的师傅在制作样衣。(设计师 供图)“金顶奖”设计师曾凤飞的时装作品
2025-08-27 09:22:00
厦门软件园:人工智能企业在这里“拔节生长”
厦门软件园已形成从基础层、技术层到应用层的人工智能全产业体系。(厦门软件园 供图)厦门软件园企业美图公司应用人工智能技术
2025-08-27 09:22:00
从普惠金融看厦门消费金融服务体系
今年5月,“中情中意 消费一夏”购在厦门消费季活动吸引超20万人次打卡,金融活水与企业让利深度融合,吸引市民游客共赴这场夏日消费盛宴
2025-08-27 09:22:00
ZWO振旺联合格林尼治天文摄影大赛,共创全球天文盛事
国内独家冠名赞助,聚焦全球星空影像2025 年 8 月,中国天文摄影领军品牌 ZWO 振旺宣布,正式成为英国格林尼治皇家天文台主办的"第 17 届格林尼治天文摄影师大赛"(Ast
2025-08-27 09:55:00