• 我的订阅
  • 科技

Pika、阿里同日炫技!国产视频大模型奋起直追

类别:科技 发布时间:2024-03-01 09:26:00 来源:金融界

在AI视频生成领域,要让视频人物和声音完美同步,仍是一个巨大的挑战。EMO不仅可以生成任意时长的说话视频,还能生成人像整个头部都发生丰富变化的说话视频,表情、五官、姿势都会产生非常自然的变化。

在AI多模态领域,科技巨头、明星初创企业似乎把火力集中到了同一个方向——AI视频生成,Sora的火热更是一石激起千层浪,同类产品发布你追我赶,战况之焦灼可见一斑。

在该领域,要让视频人物和声音完美同步,需要捕获说话人微妙和多样化的面部动作,这是一个巨大的挑战。2月28日,PIKA上线唇形同步功能Lip sync,可以为视频中的人物说话匹配口型,音频生成部分由AI语音克隆创企ElevenLabs提供技术支持。

而就在同一天,阿里推出更炸裂的视频生成框架EMO(Emote Portrait Alive)。

两者都有对口型的功能,相比较而言,目前受限于已有产品的架构,PIKA只能分段生成3秒时长的唇形同步视频,且仅仅生成唇部配合音频发生运动;而EMO不仅可以生成任意时长的说话视频,还能生成人像整个头部都发生丰富变化的说话视频,表情、五官、姿势都会产生非常自然的变化。阿里给出的示例如下:

《狂飙》大反派高启强化身罗翔

Sora东京女郎唱歌

Pika、阿里同日炫技!国产视频大模型奋起直追

小李子演唱超“烫嘴”Rap《哥斯拉》(Godzilla)

目前EMO相关论文同步发表于arXiv,同时宣布开源。

Pika、阿里同日炫技!国产视频大模型奋起直追

论文显示,EMO团队来自阿里巴巴智能计算研究院。值得注意的是,EMO与Sora技术路线不同,它并不是建立在类似DiT架构的基础上,也就是没有用Transformer去替代传统UNet,其骨干网络魔改自Stable Diffusion 1.5。

这也再次说明一个事实,从技术方面来看,视频生成工具的底层模型及技术仍在优化,多种技术路线并行,尚且没有最优解,大公司之间、大公司与初创企业间的差距不算大,甚至可以说处于同一起跑线,有望诞生更多后起之秀。

▌AI视频生成或是多模态应用的“圣杯”

视频生成领域,已经诞生了多个出圈成果。上文所述之外还包括三大图片转视频神器——阿里的Animate Anyone、字节跳动的Magic Animate、微软的GAIA。

为什么这类应用成了众公司开发AI应用的优先选择?

相较于文字和图片,视频在信息表达、画面丰富性及动态性方面有更大优势,视频可以结合文本、图像、声音及视觉效果,在单一媒体中融合多种信息形式。

这赋予了AI视频工具强大的产品功能,进而开拓出更广阔的应用场景。通过文本描述或其他简单操作,AI视频工具即可生成较高质量和完成度视频内容,这降低了视频创作门槛,让业外人士能够精准用视频进行内容展现,有望广泛赋能各细分行业的内容生产降本增效和创意输出。

国盛证券宋嘉吉此前指出,AI文生视频是多模态应用的下一站,是多模态AIGC“圣杯”,随着AI视频补齐了AI创作多模态的最后一块拼图,下游应用的加速时刻也将到来;申港证券表示,视频AI是多模态领域的最后一环;华泰证券表示,AIGC大潮已逐步从文生文和文生图转向文生视频领域,文生视频的高计算难度和高数据要求将支撑上游AI算力需求持续旺盛。

最新报道称据一位知情人士透露,其在去年下半年见到了字节跳动多模态数字人产品的demo,整体感觉还不错。字节跳动旗下剪映已在数月前组建封闭团队,秘密研发AI产品。目前,该团队仍处于严格保密阶段,研发的产品还未上线。一位接近字节跳动的知情人士称,去年一年,字节跳动创始人张一鸣将主要精力都花在了AI上,足以窥见这家公司对AI业务的重视程度。

可以预见的是,在多模态的广阔竞技场上,虽然参赛选手的增加,将会涌现出越来越多的应用、产品。

来源:科创板日报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-01 12:45:38

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

快手“可灵”意外走红,字节紧急追赶,AI文生视频赛道竞争加剧
...最快时间“复制”出国内版的Sora,更多人将目光放在了阿里、百度、“大模型五虎”身上。但无人想到,拔得头筹的会是技术表现相对“佛系”的快手。6月7日,快手突然上线了文生视频模
2024-08-01 09:32:00
阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读
...能少的资源来获取符合需求的视频?智东西8月3日报道,阿里团队近日推出视频生成模型Tora,能够根据轨迹、图像、文本或其组合,简单几笔快速生成精确运动控制的视频,同时也支持首尾
2024-08-05 09:34:00
...4家上涨。其中,阅文集团涨幅达10.14%,金山软件涨7.84%,阿里影业涨6.98%,商汤涨6.25%,知乎涨5
2024-02-19 10:47:00
刚刚,重磅发布!阿里、腾讯、科大讯飞在列
...网信息办公室发布境内深度合成服务算法备案清单,包括阿里、腾讯、百度、科大讯飞等巨头的41个算法入围,这也是国内首批公开的算法备案清单。值得注意的是,此次名单中大模型算法并不多
2023-06-20 17:00:00
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...模型发布一周年之际,迎来重要的历史性时刻。5月9日,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4 Turbo
2024-05-09 12:00:00
开年抢跑AI赛道,Sora“截胡”字节
...从百度的大语言模型“文心一言”、360的智脑大模型,到阿里巴巴的“通义千问”大模型、科大讯飞的星火大模型,再到腾讯的混元大模型,国内传统的三大互联网巨头“BAT”悉数下场。更
2024-02-21 17:22:00
Sora炸圈后哑火,国产视频大模型接棒降门槛
...经之路。以快手、字节旗下抖音为代表的短视频公司,以阿里、腾讯为代表的互联网大厂,以生数科技、智谱AI、爱诗科技等为代表的创业公司,均先后发布视频大模型产品。据德邦证券统计,自
2024-09-12 09:57:00
智源评测体系发布 国内外“百模”评估结果出炉
...五。多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1
2024-05-17 17:26:00
阿里云CTO周靖人:全面投入升级AI大基建
快科技9月19日消息,在2024杭州云栖大会上,阿里云CTO周靖人表示,阿里云正在围绕AI时代,树立一个AI基础设施的新标准,全面升级从服务器到计算、存储、网络、数据处理、模型训
2024-09-19 15:53:00
更多关于科技的资讯: