• 我的订阅
  • 科技

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

类别:科技 发布时间:2024-09-13 13:34:00 来源:机器之心Pro

近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以实现准确的音频和口型同步,还可以生成细微自然的表情动作,例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到;在唱歌时也能表现得活灵活现,驾驭不同风格。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

柔和

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

高昂

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

rap

视频链接:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

更多丰富风格的展示,可移步项目主页:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634

在不同的图片风格上,Loopy 也都表现得不错,像古风画像、粘土风格、油画风格、3D 素材以及侧脸的情况等等。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

视频链接:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

Loopy 技术方案

具体来说,Loopy 是如何仅需音频,就能实现这样生动的效果呢?

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

Loopy 框架中分别对外观信息(对应图中左上角)和音频信息(图中左下角)做了相应的方法设计,在外观上团队引入了 inter/intra- clip temporal layers 模块,通过 inter-clip temporal layer 来捕捉跨时间片段的时序信息,通过 intra-clip temporal layer 来捕捉单个片段内的时序信息,通过分而治之的方式更好建模人物的运动信息。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

同时为了进一步的提升效果,团队设计了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉长达 100 帧以上的时序信息,从而可以更好的基于数据学习长时运动信息依赖,抛弃了空间模版的限制,最终生成更好的人像运动。这就不难理解为什么 Loopy 可以仅仅依靠音频,不需要任何空间辅助信号就可以生成自然逼真的人像视频了。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

除此以外,为了能够捕捉到细腻的表情变化,团队设计了一个名为 audio to latents(A2L)的模块,用来增强音频和头部运动之间的关联关系。这个 A2L 模块在训练过程中会随机选取音频、表情参数、运动参数中的一个,将其转化为 motion latents,作为 diffusion model 的运动控制信号。在测试的时候,只需要音频就能够得到 motion latents。通过这种方式,可以借助与肖像运动强相关的条件(表情参数、运动参数)来帮助较弱相关的条件(audio)生成更好的 motion latents,进而实现对细微生动的肖像运动及表情的生成。

Loopy 在不同场景下都和近期的方法做了数值对比,也体现了相当的优势:

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

CyberHost 半身人像版模型,手部动作也能驱动

除此以外,该团队近期还推出了一个名为 CyberHost 的半身人像版本。这款模型是首个采用端到端算法框架进行纯音频驱动的半身视频生成系统,将驱动范围从肖像扩大到了半身,不仅表情自然、口型准确,也能生成和音频同步的手部动作,这在该领域是一个重大突破。

手部动作生成一直是视频生成技术中的难题,鲜有模型能实现稳定的效果。特别是在纯音频驱动的场景下,由于缺乏骨架信息输入,保持手部动作的稳定性更具挑战。CyberHost 通过专门设计的 Codebook Attention 来强化对人脸和手部等关键区域的结构先验学习,在纯音频驱动下的手部生成质量甚至超越了许多基于视频驱动的方法。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

视频链接:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

视频链接:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

Codebook Attention 引入了一系列可学习的时空联合隐变量参数,专注于在训练过程中学习数据集中局部区域的结构特征和运动模式。同时,该机制还提取了关键区域的外观特征,强化了局部 ID 的一致性。团队将这一机制应用于脸部和手部区域,并在 Denoising U-Net 的各个阶段进行插入,提升了对关键区域的建模能力。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

此外,CyberHost 还设计了一系列基于人体结构先验的训练策略,旨在减少音频驱动下人体动作生成的不确定性。这些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用于限制视频生成中人体的运动范围。而 Hand Clarity Score 通过计算局部像素的 laplacian 算子来控制生成手部的清晰度,规避手部运动模糊带来的效果劣化。

更多细节见论文以及项目主页:

CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876

团队介绍

字节跳动智能创作数字人团队,智能创作是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术,丰富智能创作内容生态。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-13 14:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Pika、阿里同日炫技!国产视频大模型奋起直追
...之外还包括三大图片转视频神器——阿里的Animate Anyone、字节跳动的Magic Animate、微软的GAIA
2024-03-01 09:26:00
谷歌发布ai前沿成果,生成式ai迎来爆发
...源。不过,值得一提的是,目前谷歌只是发布了 MusicLM的研究成果,因为版权等问题,谷歌还未向公众开放MusicLM
2023-02-01 21:09:00
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
...地址:https://megactor.github.io/ MegActor 是旷视研究院的最新研究成果。旷视研究院
2024-06-28 09:41:00
...,豆包大模型团队57篇论文中选ICLR、CVPR、NeurIPS等顶会,研究成果包括下载量超百万的开源工作及GitHub万星项目
2025-01-23 09:51:00
北京大学成立大模型系统软件联合实验室
...报中央厨房-半亩方塘工作室吴丹12月12日,北京大学联合字节跳动成立“豆包大模型系统软件联合实验室”。双方将聚焦大模型时代智能化软件基础科学和关键技术问题,特别是结合企业真实
2024-12-13 09:00:00
BAT等互联网大厂,如何入局人形机器人?
...人形机器人市场,虽然百度、阿里、腾讯、小米、美团、字节、华为等企业也都有尝试入局人形机器人产业。然而,可以发现,在这轮人形机器人的方向下,互联网资本的干涉度已经降低很多,虽然
2024-06-12 11:54:00
8位数年薪!“最懂阿里大模型的人”带整个团队跳槽加入!字节跳动放大招?
...当今世界上最懂阿里大模型的人,但这个人现在跳槽到了字节跳动,对于阿里来说这无异于釜底抽薪。7月中旬,最先曝出来的消息是周畅即将辞职创业,然而10月底,他就已经加入了字节跳动。
2024-12-07 09:52:00
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...。 除了VAR,团队还发表了LlamaGen等相关技术论文,新的研究成果也将在近期陆续放出。事件始末:恶意注入代码,投毒模型训练回看整件事情,可谓反转又反转。两个月前,圈内
2024-12-05 09:47:00
字节跳动放大招!OmniHuman数字人模型即将上线:一张图+一段音频即可生成视频
...的制作效率和质量。OmniHuman技术主页信息显示,该模型为字节跳动自研的闭源模型,可支持肖像、半身以及全身等不同尺寸的图片输入,并根据输入的音频,在视频中让人物生成与之匹
2025-02-07 18:15:00
更多关于科技的资讯:
科技浪潮奔涌向前,人工智能以拟人化互动的姿态深度嵌入日常生活,在带来技术便利的同时,也因算法的过度拟合与伦理边界模糊,悄然将未知风险传导至未成年人的精神家园
2026-04-13 15:28:00
当人工智能能模拟亲人语气、扮演恋人角色,甚至提供24小时情感陪伴时,未成年人的成长环境正面临一场前所未有的数字伦理考验
2026-04-13 15:42:00
4月9日,中国平安举办服务升级发布会,宣布以2026“服务年”为契机,重磅升级AI“快捷服务”和“全球急难救援”两大创新服务
2026-04-13 14:49:00
4月9日下午,2026年苏州市相城区企业出海安全对话会暨“4·15”全民国家安全教育日系列活动在环秀湖畔举行。活动以“出海有‘相’
2026-04-13 15:10:00
索乙一座城市的活力,不但潜藏在万千真人跑者坚韧向前的脚步中,也蕴含于人形机器人从磕磕绊绊到跑得更快更稳的耐力比拼间。今年以来
2026-04-13 11:07:00
皖中客4月10日,国家网信办、发改委、工信部、公安部、市场监管总局五部门联合发布《人工智能拟人化互动服务管理暂行办法》
2026-04-13 11:07:00
科技引领产业升级:以心医疗推动心血管器械高质量发展
在国家推动高端医疗器械创新发展、实现产业高质量发展的战略指引下,我国心血管医疗器械领域持续迎来重大突破。第93届中国国际医疗器械博览会上
2026-04-13 11:30:00
昌腾携智能纸箱设备亮相2026华南国际瓦楞展-引领包装智能制造新方向
2026年4月15日—17日,全球瓦楞包装行业盛会——2026华南国际瓦楞展在深圳国际会展中心(宝安新馆)隆重举办。东光县昌腾纸箱机械设备有限公司携全程吸附式碰线机
2026-04-13 11:30:00
深化“AI+医疗器械”战略布局 京东健康与瑞迈特、联影等品牌合作再升级
4月10日,第93届中国国际医疗器械博览会(CMEF)期间,京东健康与瑞迈特、联影、汉王大健康、康泰医学、墨尼克医疗、舒尔美等六家行业领先品牌进一步深化“AI+医疗器械”合作
2026-04-13 11:32:00
青春赋能康复创新|山东特殊教育职业学院学生团队打造智能仿生康复训练手套
在山东特殊教育职业学院,童手智康这支充满活力与爱心的学生创新创业团队,立足专业所长、聚焦康复所需,成功研发智能仿生康复训练手套
2026-04-13 11:34:00
游戏IP成为出版业“跨界”新方向
中国青年报客户端讯(中青报·中青网记者王烨捷)近日,游戏《崩坏:星穹铁道》宣布推出240万册纪念画册。画册由上海世纪出版集团旗下的上海音乐出版社承制
2026-04-13 11:42:00
一个展会赋能一个产业!霸州家具年营收超500亿元的“共享密码”
河北新闻网讯(河北日报记者刘杰)优质参展企业1800余家,发布家具新品1万余款;吸引海内外采购商16.5万人,入馆总人次超42万……4月10日
2026-04-13 11:55:00
中国具身智能大会在合肥举办
大皖新闻讯 4月10日至12日,由中国人工智能学会主办、安徽大学承办的2026中国具身智能大会(CEAI2026)在合肥举办
2026-04-13 12:01:00
近日,智慧眼科技股份有限公司(简称“智慧眼”)正式成为国际人工智能产业联盟(AIIA)理事单位。这标志着智慧眼在推动AI技术与医疗健康深度融合
2026-04-13 12:07:00
天冰“双王”出圈!春日冰淇淋盛宴,以甜蜜赴全城之约
春风拂暖,万物焕新,当春日的温柔与冰淇淋的清甜撞个满怀,深耕冰淇淋领域40年的天冰,携旗下“双王”——小神童、冠军小白重磅发力
2026-04-13 13:51:00