• 我的订阅
  • 科技

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

类别:科技 发布时间:2025-02-26 20:05:00 来源:浅语科技

开源模型,还是得看杭州。

前脚发完QwQ-Max,阿里就在深夜开源了视频生成模型Wan 2.1,14B参数直接屠榜VBench,什么Sora、Gen-3通通不是它的对手。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

从官方Demo中看,复杂运动细节非常到位,5个人一起跳hip-hop也能做到动作同步。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

而且在静态图像生成中都还是老大难问题的文字,现在也被万相给攻克了。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

当然了,14B的参数量说大不大,但在个人消费级显卡上本地部署还是比较吃力的。

不过14B(支持分辨率720P)之外,还有一个1.3B的小号版本(支持分辨率480P),在一块4090上占用显存是8个多GB,消耗时间4分21秒。

如此观之,用12GB的4070,也是能带动的。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

同时阿里还上线了两个图生视频模型,都是14B但分为480P和720P两个版本。

四个模型全都是Apache 2.0,也就是免费商用。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

而且官方也放出计划表,AI创作者们非常喜欢的ComfyUI,之后也会集成。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

视频生成模型会写字了

目前可以玩到Wan 2.1的途径有很多,最简单的方法是通过通义万相自己的平台。

在平台里,1.3B和14B版本分别叫做极速版和专业版,每次消耗5个或3个“灵感值”(新用户默认有50个,还可通过签到等多种方式免费获得)。

不过由于热度实在太高,等待的时间也会比较长,甚至有时会出现“过于火爆”的情况。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

动手能力稍强的话,可以根据官方的教程通过HuggingFace、魔搭社区或者本地等方式自行折腾,当然还有一些第三方平台也进行了跟进。

网友们也是玩出了各种花活,有人用它生成了《我的世界》风格的故事场景。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

△作者:X/@TheXeophon

再看看官方案例,从效果维度上看,Wan 2.1最大的亮点,可能就是支持在视频中生成文字了。

而且不是生硬地加入,会根据文字所处位置的材质进行合理变化,以及随载体一同运动。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

当然相对文字来说更基础的动作细节,技术也同样过关。

让两个人跳一段华尔兹,多次转身前后人物形象依然保持一致,背景的转动也很自然。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

并且也更懂物理规律,一支箭射出后,弓弦的抖动刻画得非常到位。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

小狗切菜的过程当中,被切的西红柿也没有出现畸变。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

还有像人从水面中探出头这种场景,不仅界面处处理得很好,带起的水也是从水流逐渐变化成水滴。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

另外关于图像生视频,也有网友进行了体验,没用任何提示词就得到了这样的日漫风动画:

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

△作者:X/@seiiiiiiiiiiru

除了效果本身,1.3B版本8个多GB的低显存占用,对个人创作者来说也是一个极好的消息。

那么,Wan 2.1是如何实现又好又省的呢?

创新3D变分自动编码器

和主流的视频生成技术路线一样,Wan 2.1的主体采用了DiT(Diffusion Transformer)架构。

Wan利用T5编码器对输入的多语言文本进行编码,并在每个Transformer块内加入交叉注意力机制,将文本嵌入到模型架构中。

此外,Wan采用线性层和SiLU层来处理输入时间嵌入并分别预测六个调制参数。这样的MLP在所有Transformer块之间共享,每个块都学习一组不同的偏差。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

编码上,Wan采用了3D变分自动编码器,这是一种专门为视频生成设计的3D因果关系体系结构。

它在卷积模块中实现了特征缓存机制,并结合了多种策略来改善时空压缩,减少记忆使用情况并确保时间因果关系。

具体来说,由于视频序列帧数遵循1+T输入格式,因此Wan将视频分成1+T/4个块,与潜在特征的数量一致。

在处理输入视频序列时,该模型采用逐块策略,其中每个编码和解码操作仅处理与单个潜在表示相对应的视频块。

基于时间压缩比,每个处理块中的帧数最多限制为4,从而有效防止GPU内存溢出。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

实验结果表明,在单块A800上,Wan的VAE的重建速度比现有的SOTA方法快2.5倍。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

为了使模型扩展并提高训练效率,Wan对编码器采用FSDP模型切分与上下文并行性(CP)相结合的分布式策略;对于DiT模块则采用DP、FSDP、RingAttention、Ulysses混合的并行策略。

在推理阶段,为了使用多卡减少生成单个视频的延迟,还需要通过CP来进行分布式加速。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

在14B版本的Wan上,2D上下文并行和FSDP并行策略,让DiT达到了几乎线性的加速。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

I2V部分,Wan引入了额外的条件图像作为第一帧来控制视频合成,用CLIP图像编码器从条件图像中提取特征表示。

具体而言,条件图像沿时间轴与零填充帧连接,形成指导帧。然后,这些指导帧由3D VAE压缩为条件潜在表示。

另外由于I2V DiT模型的输入通道比T2V模型多,因此I2V版本中还使用了额外的投影层,并用零值初始化。

阿里开源版Sora上线即屠榜 4070就能跑 免费商用

责任编辑:若风

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-26 23:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智谱AI版Sora开源!首个可商用,在线可玩,5小时GitHub3.7K星
...得说道说道。首先便是团队自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,大大减少了视频扩散生成模型的训练成本及训练难度。模型结构包括编码器、
2024-08-07 09:31:00
赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...上进行了多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,
2024-12-04 09:56:00
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...过程。 语义遵从:业界首个以多模态大语言模型为文本编码器的视频生成模型,天然具备超高语义理解能力,在处理多主体及属性绑定等生成领域的难点挑战时表现出色。 原生镜头转换:多
2024-12-04 09:48:00
【玖越机器人】视频网站为了降本纷纷砍画质,为何只有谷歌仍在坚持?
...歌VCU芯片的布图规划也可以看出,大部分区域都分配给了编码器核心,其次是四通道的LPDDR4内存,不仅提供边带错误纠正,也提供芯片所需的带宽。编辑VCU芯片布图规划/ 谷歌每
2023-01-14 03:00:00
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...,大型视觉语言模型在其更大的模型中使用预训练的图像编码器,其中一些使用监督分类进行预训练(如PaLI,PaLI-X
2023-10-17 16:31:00
火爆全球的AI音频大模型,最新技术细节揭秘
...练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。论文地址:https://arxiv
2024-07-25 09:22:00
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
...低的离线应用提供更高性能。Gemma Scope:通过开源稀疏自编码器揭示AI决策过程此次同时发布的另一大亮点,就是开源稀疏自编码器——Gemma Scope了
2024-08-02 09:55:00
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...资料看,腾讯混元视频生成模型还有三个亮点。1、文本编码器部分,已经适配多模态大模型当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP
2024-12-04 09:50:00
主流手机首次深度支持H.266 vivo X200搭载Ali266解码器:高清播放功耗下降13%
快科技10月25日消息,近日,vivo联合阿里相关研发团队推出业内首个H.266手机软解异构优化方案,基于阿里自研解码器Ali266
2024-10-25 11:27:00
更多关于科技的资讯:
王座赛事杭州站圆满落幕 台球产业生态链迎来升级热潮
9月6日,为期四天的王座赛事第一站在杭州希尔顿酒店圆满落幕,这项集竞技、产品、文化于一体的台球盛宴,不仅为观众呈现了精彩赛事
2025-09-08 13:37:00
强生眼力健与光正眼科举行合作集团揭牌仪式,共创“价值医疗”新范式
重塑白内障患者诊疗流程,推动精准屈光诊疗方案惠及患者【2025年9月5日,杭州】在中华医学会第二十九次眼科学术大会(CCOS2025)这一行业盛会上
2025-09-08 13:39:00
强生眼力健携手何氏眼科,共筑中国眼健康创新生态
以“医教研”一体化,加速全球前沿技术转化【2025年9月6日,杭州】为加速共筑中国眼健康创新生态,强生旗下的眼健康业务强生眼力健
2025-09-08 13:39:00
以“数字中台+智贸生态”赋能广州万亿级市场 数字化转型升级
2025年广州(秋季)白云里国际美妆节白云电商高峰论坛于9月5日在白云里国际美妆中心成功召开。本次论坛汇聚了广州市白云区电子商务行业协会会长朱东炫
2025-09-08 13:39:00
印象草原:一场关于“自我设计”的时尚革命蓄势登场
当服装跳出市场同质化“单品”的定义,成为承载个性的专属“战袍”,一场关于“自我设计”的时尚革命正蓄势登场。2025年9月9日
2025-09-08 13:39:00
强生眼力健与香港希玛眼科携手共建创新技术合作集团,引领屈光白内障及老视诊疗新篇章
【2025年9月6日,杭州】 近日,在中华医学会第二十九次眼科学术大会(CCOS2025)期间,强生眼力健与香港希玛医疗集团(以下简称“希玛医疗”
2025-09-08 13:40:00
强生眼力健携手爱尔眼科,共筑精准屈光诊疗全国标准化体系
以技术驱动,定义高品质眼科服务规模化落地新范本【2025年9月5日,杭州】在中华医学会第二十九次眼科学术大会(CCOS2025)期间
2025-09-08 13:41:00
首个电商蟹卡兑换系统上线:五年投入两千万元研发 无法履约最高赔10万元
蟹卡标注着长期有效,兑换时商家却玩起了失联。每逢中秋节前,不少消费者因蟹卡无法兑换而踩雷。今年大闸蟹消费季,京东超市宣布为消费者提供百分百可兑换服务
2025-09-08 13:48:00
小米回应车主提车发现是测试车:静电贴痕迹,湿毛巾就能擦掉
近日,有小米YU7车主反映,提车后发现前挡风或后挡风玻璃上存在“测试车”静电贴残留痕迹。9月7日,小米集团公关部总经理王化在微博回应称
2025-09-08 11:54:00
贵州大数据集团中标国内首个“云胶片”项目
在贵州,一朵惠及全民的“医疗云”正腾空而起。9月4日,国内首个数字化医用耗材“云胶片”省级带量采购项目中标结果正式出炉
2025-09-08 11:53:00
□南京日报/紫金山新闻记者王国俊通讯员宁穗独角兽企业的成长既需要企业自身的科技实力,也离不开良好的发展环境。近日,记者从南京市税务局获悉
2025-09-08 07:42:00
产业发展“最佳助攻”,如此赋能!
9月2日,位于苏美达伊顿纪德仓储分拨中心厂区,申通快递员工直接将打包好的校服扫码揽收、装箱、发出,迅速、高效地将包裹送至客户手中
2025-09-08 07:42:00
□南京日报/紫金山新闻记者徐宁在南京,软件产业创新活力奔涌。南京市千行万业鸿蒙原生应用正式开启,南京开鸿城市产业园在建邺区启动建设
2025-09-08 07:43:00
未来到底怎么飞?2025智博会揭秘蓝天新赛道
大河网讯 低空经济是当下热议的话题,也是智能制造新赛道。在此背景下,2025世界智能产业博览会设置了低空经济专区,展现了各色各样的无人机和低空飞行器
2025-09-07 23:22:00
“跨界玩家”涌现,追觅、MOVA、TCL正用AI重划家电版图|硬氪直击IFA2025
编者按:2025年IFA(柏林国际电子消费品展览会),中国厂商又一次攻占会场。坐拥全球最完善、复杂的供应链,储备下数量最多
2025-09-07 10:05:00