• 我的订阅
  • 科技

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线

类别:科技 发布时间:2023-12-22 14:45:00 来源:36氪

文|王怡宁

编辑|邓咏仪 尚恩

Google又又又发布了新模型,这次是在文生/图生视频赛道又“卷”了一把对手们。

12月19日,谷歌专门发了一款搞视频生成的模型VideoPoet,不仅能支持根据视频加入音频效果,允许交互编辑,更重要的是,VideoPoet现在可以生成更长的视频了。简而言之,这次的模型看起来更加全能了。

看过Demo后的网友们直接表示:

好牛,所以什么时候能用上?

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线

图源:Twitter

向电影更进一步,加入音效延展时长

近期的AI生成视频赛道的新模型层出不穷,网友们被信息轰炸地应接不暇,看到新模型的第一反应大概就是:这次的模型有什么不一样?哪里最有看头?

不得不说,虽然VideoPoet已经是Google本月发布的第N个模型了,但质量和效果依然在线,在功能上也有不少突破。

图源:VideoPoet

当然,VideoPoet还有不少新的看点。

加入音频效果

以往的文生视频和图生视频几乎都是在“卷”画面的清晰度,这一次,Google注意到了被忽视的音效,让AI在生成视频的基础上,还能在没有任何文本提示词的情况下,根据视频内容生成相应的音频。

在官方放出的Demo里,VideoPoet就自动为正在吃爆米花的小狗配上了“咔擦咔擦”的音效,效果逼真。告别“默片时代”,AI生成视频离电影和动画距离又近一步。

视频时长显著提升

看一圈目前做AI视频生成的工具,一个最大痛点就是,时长普遍在2-4秒。比如Stability AI的AI视频生成模型Stable Video Diffusion,也有这个问题。

究其原因,主要是训练素材受限等方面,这多少也让人觉得有些意犹未尽。

不过,VideoPoet巧妙地通过重复的方法延长了视频长度,即让AI根据前一个视频的最后一秒接着预测下一秒的内容。这种方法不仅大大扩展了视频长度,还能做到对原视频内容的高保真呈现。

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线

图源:VideoPoet

Prompt:

An astronaut starts dancing on Mars. Colorful fireworks then explode in the background.”一个宇航员开始在火星上跳舞,五颜六色的烟花在背景中爆炸。

加入交互编辑功能

时长是延长了,万一对生成的视频不满意,怎么办?

没关系,VideoPoet都能改,而且还给用户提供了更多的选择空间。

以下面这个机器人为例,当用户输入原始视频(即左侧第一段)后,VideoPoet就能自动生成中间三段不同动作的视频。如果用户想要更丰富的效果,还可以添加新的提示词,如“在背景中加入烟雾”,来生成更丰富的效果。

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线

图源:VideoPoet

类似的,用户也可以精准控制从图像生成视频的过程,比如像下面这样让蒙娜丽莎转头和打哈欠。

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线

图源:VideoPoet

Prompt:

Left: “A woman turning to look at the camera.” Right: “A woman yawning.” 用不同的提示动画一幅画。左: “一个女人转向镜头。”右: “一个女人打哈欠。”

摄像机动作

除了让图片中的人物动起来,要想让画面更有镜头感,VideoPoet也能行。支持添加运动类型,为生成的视频提供模拟摄像机运镜的效果,还有缩放、无人机拍摄等多种视角可供选择。

图源:VideoPoet

支持视频风格化

此外,VideoPoet还有多种风格选择。不管是让小鼠一秒穿越到夏威夷,还是让泰迪熊去湖上滑冰,在VideoPoet上都可以通过输入提示词轻松实现。

图源:VideoPoet

放弃扩散模型,做多功能大模型

除了上面这些有意思的效果,VideoPoet的特别之处在于——其底层是一个大语言模型。如果用学科简单打比方,好比一个吟诗作对的文人,现在也能扛起摄像机去做影视制作。

从技术角度来看,当前主流的视频生成模型几乎都是基于扩散模型(Diffusion Model)的,但Google的开发团队认为,LLM在语言、代码和音频等各种模式上拥有更卓越的学习能力,因此他们选择将多种不同的视频生成功能(如文生/图生视频、视频风格化、视频修补)集成到单一的大语言模型中。

本质上看,这是两种深度学习架构的不同。LLM的工作原理是通过计算单词或词组之间的概率关系,根据上下文来预测接下来最可能出现的单词或词组。而扩散模型则是通过逐步去除加入到原始数据中的随机噪声,来生成数据。

同时,LLM的技术已经相对成熟,这也意味着团队在开发过程中可以重复使用被验证过的有效方法和基础设施,让训练更加高效。

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线

图源:VideoPoet

VideoPoet还训练了一个自回归语言模型,让模型能够跨视频、图像、音频和文本模式进行学习。这些设计也确实让VideoPoet看起来更加全能了。

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线

图源:VideoPoet

从测评效果来看,对比其他的视频生成模型,用户认为VideoPoet在文本保真度上的得分显著高于其他模型,即VideoPoet能更准确地遵循用户的提示词并生成视频。

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线

图源:VideoPoet

One More Thing

虽然已经是2023年的年底,多模态赛道的玩家们却都还在抢着发布新模型,为本就热闹的市场又增加了一把热度。

勤奋如Google,一个月内连发好几款新模型。也有蓄势待发的Midjourney,时隔9个月后终于要发布V6版本。据第一批参与标注的网友反馈,V6在处理图片的层次、光影和皮肤纹理等细节上都有了质的提升,让人不由期待即将发布的正式版本。

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线

网友借Midjourney V6生成

国内的大厂们近期也有不少动作,前有腾讯和港科大联合推出的VideoCrafter1,后有字节的Magic Animate,更别提两个月内一连发了Animate Anyone、Animate Anything、DreaMoving等一系列模型的阿里。

尽管视频生成领域还有很多技术难点等待攻克,不过VideoPoet这样集成多功能的大语言模型,也为图生视频领域未来的发展提供了更多的想象空间。

???????? 扫码加入「智涌AI交流群」????????

欢迎交流

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-22 18:45:19

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Sora刷屏 标贝科技AI配音为音视频内容创作插上翅膀
...一段高质量的视频内容往往需要复杂的后期制作以及专业配音,对许多创作者来说是一个不小的挑战。进一步降低音视频制作门槛,让创作者能够更容易地生产内容,成为推动音视频+垂直行业融合
2024-02-29 12:00:00
失意职场人 迷上了烧钱做短视频
...高昂的拍摄设备,不需要场地,不需要演员,甚至不需要配音,都可以用AI实现很多天马行空的创意。”Danny本来打算年底离开南昌,去上海北京求职,但是AI让他看到机会:“不用离开
2024-12-04 22:38:00
AI音频“扛把子”刚上谷歌V2A,第一个视频+音频全自动AI工具,完全开源免费
...得更为真实的重要一步。如果AI能完成从脚本/图片-视频-配音的工作流,那才是真的完美。昨日凌晨,谷歌DeepMind悄悄发布了V2A(Video-to-Audio)系统
2024-06-21 10:53:00
出门问问内测探索大模型“序列猴子”,为个人与企业打造专属CoPilot
...分别为AI写作平台“奇妙文”、AI绘画平台“言之画”、AI配音平台“魔音工坊”、数字人视频与直播平台“奇妙元”。自研大模型「序列猴子」,助力AGI“降临”出门问问大模型“序列
2023-04-20 18:00:00
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...较低,视频生成的内容仍存在一定的优化空间。 5、视频配音、配乐与数字人技术除了基础的视频生成能力外,腾讯还拓展了HunYuan-Video的应用功能,推出了视频配音与配乐功
2024-12-04 09:49:00
出门问问亮相2024世界人工智能大会,再掀AIGC新审美浪潮
...AI短视频创作平台「元创岛」、AI数字分身「奇妙元」、AI配音助理「魔音工坊」、AI数字员工「奇妙问」等多个AI应用亮相展会
2024-07-07 18:45:00
进击2024洞察生成式AI时代下的智能营销新机遇
...程是通过海外模特的棚拍或直播、人工编写脚本、多语种配音,再由优化师进行设计分析,整个过程需要3天6人的固定支出。而现在,易点天下只需一个人5分钟,即可通过数字人生成、数字直播
2024-04-16 18:01:00
视频秒生成!迪思携手百度智能云推出AI视频创作模型
...视频制作的传统工作流程(脚本撰写、素材剪辑、配乐、配音、字幕、模版调节等)简化为通过AI一键生成,将为传媒、广告、营销等行业提供高效的生产力工具,极大降低成本的同时,也将颠覆
2024-03-25 16:46:00
成都索贝数码陈智:适配媒体工艺的视频 AI 生产引擎
...它基于生成式AI技术,能够创作脚本、视频片段、图文、配音等节目要素,实现视频节目的自动化剪辑、自动配音、自动生成唱词等功能,从而极大地简化节目制作流程并提高生产效率。
2024-06-30 23:28:00
更多关于科技的资讯:
两会,就这Young!丨万亿存量市场怎么激活?全国人大代表郭兴田用“两天”作答
编者按:今年全国两会,大河网两位00后记者首次踏上两会征程,以“萌新”视角记录两会,为网友带来全新体验:不背稿、不装样
2026-03-10 14:21:00
让家陪伴成长——金隅天坛家居Mall 3月7日启幕,定义“家生活”新方式
在快速更迭的时代,人们对家的期待已超越功能满足,转而追求情感承载与成长陪伴。正是基于这一洞察,金隅天坛家居Mall提出“我家的长期主义”核心主张——让家能够伴随家庭成长
2026-03-10 14:26:00
在教育选择中,高途网课是否靠谱、教育机构是否可靠、办学是否正规,是学习者和家长最为关注的核心问题。高途 2025 财年第四季度及全年财报
2026-03-10 14:27:00
文化认同融入创新表达,“欢笑中国年”如何抓住大众情绪的小切口?
2026 年春节,红包大战再度迎来内卷与爆发,随着AI平台扎堆涌入,用户在春节期间的注意力被分散、现金激励的边际效应减弱
2026-03-10 16:50:00
灵寿县:灵活就业AI分析让求职成功率提升25%
“把这次春风行动搜集到的信息尽快录入系统,用AI分析一下,精准做好匹配。”3月8日,灵寿县零工市场有关负责人张杉认真梳理了上一场“春风行动”收集到的用工求职信息
2026-03-10 11:30:00
杭州的人形机器人太超前 德国留学生专程为它来学习
近日,浙江科技大学机器人现代产业学院实验室里,来自德国德累斯顿技术经济大学的硕士研究生马克西米利安·穆勒正在开展关于宇树人形机器人的毕业论文研究
2026-03-10 11:36:00
大皖新闻讯 连日来,“养龙虾”成为一大热词。这里的龙虾不是水产,而是一款名为OpenClaw的开源AI智能体,因其图标是亮眼的红色龙虾
2026-03-10 13:41:00
新发路观察·两会特别报道|瞪羚样板背后的吉林创新力
今年全国两会上,瞪羚企业创新力再成热门话题。从数字经济到先进制造,从新材料到生物医药,一批又一批瞪羚企业脱颖而出……以创新破局
2026-03-10 13:46:00
当“移动蓝”邂逅“咖啡香”:中国移动江苏公司携手宜兴高职校,打造创业实践新样本
近日,位于宜兴人民南路139号的中国移动服务厅内,飘出了浓郁的咖啡香。备受关注的“电大咖啡”在这里正式开门迎客。这家由宜兴高等职业技术学校学生自主运营
2026-03-10 11:40:00
拥抱OpenClaw生态,途牛MCP开放平台正式上线
江南时报讯 3月9日,途牛对外发布正式上线MCP(Model Context Protocol)开放平台,面向AI Agent与个人助理(如OpenClaw)提供一站式旅游服务能力接口
2026-03-10 11:08:00
厦门网讯(厦门日报记者 林露虹)将智能马桶的外观调为柔和的粉色,以优化感官体验提升产品附加值;从个人护理细分赛道切入,构建服务女性的全品类矩阵……这些创新举措
2026-03-10 08:20:00
奋进的河北|共享智造 集群焕新
编者按安平丝网远销190多个国家和地区,肃宁乐器年产逾百万件……各具优势的县域特色产业,为燕赵大地高质量发展注入澎湃活力
2026-03-10 08:32:00
临海市人工智能创新发展大会日前举行,现场集中签约12个人工智能重点合作项目,涵盖智能制造等领域,标志着这座千年古城在竞逐人工智能新赛道上按下“加速键”
2026-03-10 08:33:00
3月7日上午,浙江代表团小组审议现场,全国人大代表、温州医科大学校长李校堃分享了一个数据:2025年我国创新药对外授权交易合同总金额超过1300亿美元
2026-03-10 08:34:00
近日,央视财经《银发经济走进城市|上海行》播出,聚焦上海在银发经济领域的创新实践。节目通过走访企业和行业代表,观察科技与服务模式如何满足老年群体日益增长的精神文化需求
2026-03-10 08:51:00