• 我的订阅
  • 科技

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

类别:科技 发布时间:2024-08-05 09:34:00 来源:智东西

AI视频生成赛道风起云涌,国内外新颖的文生、图生视频产品层出不穷。在各大厂商的“内卷”之下,当下的视频生成模型各方面已经接近“以假乱真”的效果。

但与此同时,大部分视频生成模型的准确程度、遵循指令的能力还有待提升,生成视频仍然是一个“抽卡”的过程,往往需要用户生成许多次,才能获得符合需求的结果。这也造成算力成本过高、资源浪费等问题。

如何提升视频生成的精准度,减少“抽卡”次数,利用尽可能少的资源来获取符合需求的视频?

智东西8月3日报道,阿里团队近日推出视频生成模型Tora,能够根据轨迹、图像、文本或其组合,简单几笔快速生成精确运动控制的视频,同时也支持首尾帧控制,让视频生成的可控性又上了一个阶梯。

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_开篇.mp4

Tora是首个面向轨迹的DiT框架模型,利用DiT的可扩展性,Tora生成的物体运动不仅能精确地遵循轨迹,而且可以有效地模拟物理世界动态,相关论文已于8月1日发布在arXiv上。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

▲Tora论文

Tora目前仅提供视频演示,其项目主页显示,其后续将发布在线Demo和推理、训练代码。

论文地址:

https://arxiv.org/abs/2407.21705

项目地址:

https://ali-videoai.github.io/tora_video/

一、三种模态组合输入,精准控制运动轨迹

Tora支持轨迹、文本、图像三种模态,或它们的组合输入,可对不同时长、宽高比和分辨率的视频内容进行动态精确控制。

轨迹输入可以是各种各样的直线、曲线,其具有方向,不同方向的多个轨迹也可以进行组合。例如,你可以用一条S型曲线控制漂浮物的运动轨迹,同时用文字描述来控制它的运动速度。下面这个视频中,所使用的提示词用到了“缓慢”、“优雅”、“轻轻”等副词。

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_曲线轨迹.mp4

同一条轨迹也可以在一个轴线上反复运动,生成来回摇动的画面。

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_来回轨迹.mp4

在同一张图上,绘制不同的轨迹也可以让Tora生成不同运动方向的视频。

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_同一张图.mp4

而基于同一个轨迹输入,Tora会根据主体的区别生成不同的运动方式。

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_绕圈.mp4

与目前常见的运动笔刷功能有所不同的是,即使没有输入图像,Tora也可以基于轨迹和文本的组合,生成对应的视频。

例如下面这个视频中的1、3两个视频,就是在没有初始帧,只有轨迹和文字的情况下生成的。

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_轨迹文字.mp4

Tora也支持首尾帧控制,不过这个案例只以图片形式出现在论文里,没有提供视频演示。

那么,只有文本、图像两个模态输入的话,能否实现同样的效果呢?带着这个疑问,我尝试将相同的初始帧和提示词输入其他AI视频生成器。

下面视频中从左到右、从上到下依次为Tora、Vidu、清影、可灵生成的视频。可以看到,当轨迹为直线时,无轨迹输入的视频生成勉强还算符合需求。

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

但当需要的运动轨迹变为曲线,传统的文本+图像输入就难以满足需求。

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

二、基于OpenSora框架,创新两种运动处理模块

Tora采用OpenSora作为其基本模型DiT架构,OpenSora是AI创企潞晨科技设计并开源的视频生成模型框架。

为了实现基于DiT的轨迹控制视频生成,Tora引入了两个新型运动处理模块:轨迹提取器(Trajectory Extractor)和运动引导融合器(Motion-guidance Fuser),用于将提供的轨迹编码为多级时空运动补丁(motion patches)。

下图展示了Tora的整体架构。这一方法符合DiT的可扩展性,能够创建高分辨率、运动可控的视频,且持续时间更长。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

▲Tora整体架构

其中,轨迹提取器采用3D运动VAE(变分自编码器),将轨迹向量嵌入到与视频补丁(video patches)相同的潜在空间中,可以有效地保留连续帧之间的运动信息,随后使用堆叠的卷积层来提取分层运动特征。

运动引导融合器则利用自适应归一化层,将这些多级运动条件无缝输入到相应的DiT块中,以确保视频生成始终遵循定义轨迹。

为了将基于DiT的视频生成与轨迹相结合,作者探索了三种融合架构的变体,将运动补丁注入到每个STDiT块中,其中自适应范数(Adaptive Norm)展示了最佳性能。

在具体的训练过程中,作者针对不同输入条件采取了不同的训练策略。

在轨迹训练中,Tora使用两阶段训练方法进行轨迹学习,第一阶段从训练视频中提取密集光流,第二阶段根据运动分段结果和光流分数,从光流中随机选择1到N个对象轨迹样本,最后应用高斯滤波器进行细化。

在图像训练中,Tora遵循OpenSora采用的掩码策略来支持视觉调节,在训练过程中随机解锁帧,未屏蔽帧的视频补丁不受任何噪声的影响,这使得Tora能够将文本、图像和轨迹无缝集成到一个统一的模型中。

与先进的运动可控视频生成模型进行定量比较时,随着生成帧数的增加,Tora比基于UNet的方法具有越来越大的性能优势,保持较高的轨迹控制的稳定度。

例如基于同一输入,Tora生成的视频比DragNUWA、MotionCtrl模型生成的更加平滑,对运动轨迹的遵循也更准确。

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_对比视频.mp4

三、“期货”已兑现,阿里持续布局AI视频

AI视频生成玩家们打得如火如荼,阿里也一直在持续围攻AI视频赛道。比起Sora等主攻视频生成长度和质量的通用模型,阿里团队的项目似乎更注重于算法在不同视频生成形式上的具体应用。

今年1月,通义千问上线了“全民舞王”,凭借“兵马俑跳科目三”出圈了一把;2月,阿里发布肖像视频生成框架EMO,一张图就能让照片里的人开口说话。

当时智东西统计了阿里在AI视频上的布局,其在4个月内连发了至少7个新项目,覆盖文生视频、图生视频、人物跳舞、肖像说话等方向。(国产神级AI登场!高启强化身罗翔,蔡徐坤变Rap之王,还跟Sora联动)

如今又半年过去,EMO已经从“期货”变成通义App中的“全民唱演”功能,人人可用。阿里也发布了更多AI视频项目。

1、AtomoVideo:高保真图像到视频生成

AtomoVideo发布于3月5日,是一个高保真图生视频框架,基于多粒度图像注入和高质量的数据集及训练策略,能够保持生成视频与给定参考图像之间的高保真度,同时实现丰富的运动强度和良好的时间一致性。

项目主页:https://atomo-video.github.io/

2、EasyAnimate-v3:单张图像+文本生成高分辨率长视频

EasyAnimate是阿里在4月12日推出的视频生成处理流程,并在短短3个月内迭代到v3版本。它通过扩展DiT框架引入了运动模块,增强了对时间动态的捕捉能力,确保生成视频的流畅性和一致性,可生成不同分辨率6秒左右、帧率24fps的视频。

项目主页:https://github.com/aigc-apps/EasyAnimate

结语:AI视频生成可控性再上一层

在AI视频生成时长、质量已经达到一定程度之际,如何让生成的视频更可控、更符合需求,是当下的重要命题。

在精准度、可控性和资源利用效率等方面的持续优化下,AI视频生成产品的使用体验将迎来新的阶段,价格也会更加亲民,让更多创作者参与进来。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-05 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

本文转自:南湖晚报《神笔马良》读后感N实验小学教育集团东校区207班 石语安 指导老师 张芸岚寒假期间,我看了《神笔马良》这个故事。这个故事讲的是古时候有个孩子叫马良,他从小父母
2023-02-12 06:15:00
贵州省话剧团大型原创亲子童话剧《马良的神笔》在筑上演
12月15日,由贵州省话剧团创作的大型原创亲子童话剧《马良的神笔》,在贵阳北京路大剧院上演。该剧由刘融影沅编剧,时冬瑜导演,郑琪、严子隽、田静、杨帆等主演。剧中,主人公马良是一个
2023-12-21 20:17:00
2025网聚美好安徽网络主题活动 | “魔镜”现身 “神笔马良”也来了?安徽这座“紫云山”不一般
...能当“私教”的智能魔镜、能将涂鸦变成艺术画的“神笔马良”……这些新奇酷炫的科技产品将采访团带入了一个充满想象力的科技世界。AI眼镜解放双手 魔镜变身“私教”一副外观时尚、充满
2025-11-11 09:13:00
腾讯混元大模型亮相第八届数字中国建设峰会!记者带你体验AI的“十八般武艺”。
2025-04-30 22:03:00
丝路青年说(十三)|边境村寨的“神笔马良”
...的手绘画作。曼勒村的“童话”景象离不开村里的“神笔马良”——岩温叫。这位90后傣族小伙,从2015年开始至今,在占地80亩的曼勒村,绘制的墙画就有5000平方米。曼勒村 海外
2024-04-18 18:16:00
福州“神笔马良”赋能乡村振兴
...000多位大学生在52个村落创作4000多平方米彩绘福州“神笔马良”赋能乡村振兴志愿者在闽侯县廷坪乡盘岭村创作的墙画。在福州,有这样一支年轻的志愿者队伍:他们每到周末、假期,
2024-05-04 01:58:00
...化赋能地域创新在滨江长河老街,文化特派员宛如“神笔马良”,挥动着“文化之笔”“特长之笔”,精心打造出“来小宝”,让老街有了新的文化符号。不过,这个文化IP只是文化特派员这位“
2025-01-03 07:55:00
武汉市公安局辅警黄子卿:画中的“神笔马良”
...时期的警察故事,被同事称赞为武汉公安系统内的“神笔马良”。中国国家博物馆捐赠证书2013年10月,黄子卿从大学美术教育专业毕业后加入警队,在硚口区分局宝丰街派出所协助民警进行
2024-03-09 15:11:00
剧本一键成片 首款长剧本解析动态故事板AI生成工具发布
...高凯)首个面向长剧本解析的动态故事板AI生成工具“神笔马良”于27日发布。据介绍,该产品由猫眼娱乐发布,可根据用户上传的剧本,进行一键智能分析、智能角色创作、智能分镜创作、智
2024-09-27 22:32:00
更多关于科技的资讯:
智慧助老,温暖相伴!龙岩联通开展线下“联通客户日”活动
东南网龙岩1月29日讯(通讯员 曹可煊)1月,龙岩联通新罗分公司、漳平分公司在营业厅如期举行“联通客户日”专属活动。作为每月常态化的客户互动专场
2026-01-29 21:07:00
一颗播州辣椒的全球之旅
多彩贵州网讯 在黔北播州的绵延青山之间,一颗颗红彤彤的辣椒经过烘烤后,被集中送往位于石板镇国际辣椒产业园的遵义中椒生物科技有限公司
2026-01-29 17:49:00
科力装备携手华为云深化智能制造,打造汽车零部件行业数智化升级标杆
日前,工业和信息化部、教育部、市场监管总局、国家数据局四部门联合印发《汽车行业数字化转型实施方案》(以下简称《实施方案》)
2026-01-29 18:25:00
随着AI(人工智能)技术飞速发展,一种被称为OPC(One Person Company,一人公司)的新型创业形态正在兴起
2026-01-29 18:59:00
“咪咕阅读”正式升级为“咪咕悦看”,以文剧融合新生态践行数字文化发展使命
从追求流量到追求质量,微短剧行业正迈向精品化与主流化的升级之路,拥有大量好内容的网络文学是微短剧发展的重要推动力。咪咕阅读率先以“文剧融合”为抓手
2026-01-29 14:24:00
星聚会KTV中国香港双店同开
2026年1月27日,星聚会KTV(以下简称星聚会)正式官宣,中国香港铜锣湾V Point店与兰桂坊加州大厦店双店同步盛大启幕
2026-01-29 14:34:00
星巴克中国发布一季度财报 营收连续五个季度增长
1月28日晚,星巴克发布2026财年第一季度业绩报告,营收实现双位数增长,同店销售额连续三个季度正增长。营收连续五个季度增长
2026-01-29 15:24:00
五大优化精准惠民,2026年郯城县以旧换新再发力
鲁网1月29日讯 (记者 吴艳萍)1月29日,郯城县人民政府召开“惠企利民 消费品以旧换新”新闻发布会。郯城县商务局相关负责人介绍2025年郯城县消费品以旧换新工作开展情况
2026-01-29 16:44:00
惠民2800余万元!郯城县以旧换新释放消费新动能
鲁网1月29日讯 (记者 吴艳萍)1月29日,郯城县人民政府召开“惠企利民 消费品以旧换新”新闻发布会。郯城县商务局相关负责人介绍2025年郯城县消费品以旧换新工作开展情况
2026-01-29 16:46:00
注意力差、上课走神、做事拖拉磨蹭?这可能是学习能力需要“专业锻炼”的信号
鲁网1月29日讯学习困难是儿童成长过程中常见的问题,严重影响孩子的学业成绩和心理健康。因此,建立科学的筛查和干预机制,对于早期发现和解决学习困难问题至关重要
2026-01-29 15:35:00
科学探秘 巧手求真 观湖社区伯努利实验点亮青少年科学梦
“原来流动的空气真的有力量!”“乒乓球居然能悬浮在空中不掉下来!”近日,苏州工业园区唯亭街道观湖社区阿里博士实验室内欢呼声此起彼伏
2026-01-29 11:28:00
大皖新闻讯 1月28日晚间,星巴克发布2026财年第一季度业绩报告,中国市场延续强劲增长势头,营收实现双位数增长,同店销售额连续三个季度正增长
2026-01-29 12:51:00
京东携机器人亮相乡村舞台 光明村首届“村晚”科技感拉满
当智能机器人遇上“村晚”,科技与年味会碰撞出怎样的精彩?1月28日,江苏宿迁来龙镇光明村热闹非凡,由京东打造的首届“村晚”正式上演
2026-01-29 13:13:00
“溪山模式+溪有物种实践”赋能科创:从商业航天到核聚变
2026年1月22日,NSE2026第四届新物种进化大会暨2026溪山天使年会在北京大北农凤凰国际创新园隆重举行。这场由溪山天使汇
2026-01-29 13:14:00
爱喏与宅智造达成战略合作:融合产品体系与服务网络,打造高效家装新平台
近日,融合产品设计与实用美学的健康水生态品牌“爱喏”与国内领先的一站式建材服务商“宅智造”建材超市正式签署战略合作协议
2026-01-29 13:16:00