• 我的订阅
  • 科技

字节版Sora火爆24小时,同名论文再次被热议

类别:科技 发布时间:2024-09-26 13:41:00 来源:量子位

“不需要再等OpenAI的鸽王Sora了”。‍

字节版Sora终于来了,这一次还憋了个大的——

一口气推出Seaweed和PixelDance两款豆包视频模型,支持文生/图生视频,时长可达10s。

以PixelDance为例,其最大特色在于多主体交互,一致性多镜头生成。

啥意思??——直接来看几个官方demo。

First kill,现在手上有这样一张原图:

若使用当前大多视频模型,一般只能进行到“摘墨镜”这个环节;而PixelDance能解锁时序性多拍动作指令。(摘完墨镜还能站起来,并走向雕像)

还有类似电视剧的飙戏名场面(多个主体),各自眼神、动作,一整个拿捏。

Double kill,饱受吐槽的PPT动画有新解了。PixelDance拥有变焦、环绕、平摇、缩放、目标跟随等多镜头话语言能力。

提示词:一名亚洲男子带着护目镜游泳,身后是另一名穿潜水服的男子

关键来了,在一致性方面,PixelDance号称能10秒讲述完整故事。

说人话就是,在一句提示词内,实现多个镜头切换,同时保持主体、风格和氛围的一致性。

提示词:一个女孩儿从汽车上下来,远处是夕阳

提示词:水墨风格的鸟,比例16:9

小结一下,字节版Sora这次主打多主体交互、酷炫运镜、一致性多镜头以及多风格比例。

发布会一结束,网友们的期待值也是拉满了,嗷嗷待哺内测资格!

字节版Sora火爆24小时,同名论文再次被热议

字节版Sora火爆24小时,同名论文再次被热议

字节版Sora火爆24小时,同名论文再次被热议

与此同时,字节研究团队一篇PixelDance同名论文,也被扒了出来,再次引发热议。‍‍‍

字节版Sora火爆24小时,同名论文再次被热议

背后论文揭示「PixelDance」原型‍‍

字节团队此前入选CVPR 2024的论文,就提出了名为一种PixelDance的模型。‍

字节版Sora火爆24小时,同名论文再次被热议

先划重点,团队采用的方法可以概括为:

基于潜在扩散模型,结合视频片段的首帧和尾帧图像指令与文本指令进行视频生成,并有效利用公开视频数据进行训练。

首先,团队采用广泛使用的2D UNet作为扩散模型,该模型由一系列空间下采样层和一系列空间上采样层构建,并插入了跳跃连接。

具体来说,它由两个基本模块构建,即2D卷积模块和2D注意力模块。

通过插入时间层将2D UNet 扩展为3D变体,其中在2D卷积层之后插入1D时间卷积层,2D注意力层之后插入1D时间注意力层。

模型可以通过图像和视频联合训练,在空间维度上保持高保真生成能力。

不过对于图像输入,1D时间操作被禁用。团队在所有时间注意力层中使用双向自注意力。

字节版Sora火爆24小时,同名论文再次被热议

其次是指令注入。具体来说,PixelDance基于

文本指令源于使用详细的文本注释以精确描述视频的帧和动作 首帧图像指令描述了视频片段的主要场景 尾帧图像指令(在训练和推理过程中可选使用)描绘了视频片段的结尾,并提供了额外的控制

字节版Sora火爆24小时,同名论文再次被热议

这里要插一句,与文本指令相比,图像指令更加直接且易于获取——使用真实视频帧作为训练中的图像指令。

据了解,文本指令由预训练的文本编码器编码,并通过交叉注意力融入扩散模型。

图像指令由预训练的VAE编码器编码,并与受扰的视频潜变量或高斯噪声一起作为扩散模型的输入。

在训练过程中,团队使用(真实的)首帧指令来强制模型严格遵循该指令,从而保持连续视频片段之间的一致性。

当然了,PixelDance独特之处在于使用尾帧指令的方式。

简单说,团队有意避免让模型完全复制尾帧指令,因为在推理过程中提供一个完美的尾帧是很困难的,模型应该能够处理用户提供的粗略草稿,并作为指导。

字节版Sora火爆24小时,同名论文再次被热议

为了实现这一点,团队开发了三项技术:

1、在训练过程中,尾帧指令是从视频片段的最后三帧(真实的)中随机选择的。2、向指令中引入了噪声,以减少对指令的依赖性并提高模型的鲁棒性。3、在训练中以一定概率(例如 25%)随机丢弃尾帧指令。

相应地,团队提出了一种简单但有效的推理策略。

概括起来就是,在前τ次去噪步骤中,利用尾帧指令引导视频生成朝向期望的结束状态。

在剩余的步骤中,指令被丢弃,允许模型生成时间上更连贯的视频。

通过调整τ,可以控制尾帧指令对生成结果的影响。

字节版Sora火爆24小时,同名论文再次被热议

接下来,团队在WebVid-10M数据集上训练了视频扩散模型,该数据集包含大约1000万个短视频片段——

平均时长为18秒,分辨率通常为336 × 596,且每个视频都附有与视频内容松散相关的文本描述。

不过WebVid-10M存在一个问题,即所有视频上都带有水印,这导致生成的视频中也会包含水印。

因此,团队将训练数据扩展为另外自收集的50万个无水印视频片段,它们包含真实世界的实体,如人类、动物、物体和风景,并附有粗粒度的文本描述。

尽管这一额外数据集只占了很小比例,但团队惊讶地发现:

将该数据集与WebVid-10M结合训练后,如果图像指令没有水印,PixelDance就能够生成无水印的视频。

最终,PixelDance在视频-文本数据集和图像-文本数据集上进行联合训练。

对于视频数据,从每个视频中随机采样16个连续帧,每秒4帧。

此外,按照之前的工作,采用LAION-400M作为图像-文本数据集;每8次训练迭代使用一次图像-文本数据。

字节版Sora火爆24小时,同名论文再次被热议

自论文发布之后,到产品上线这段时间具体又做了哪些改进,目前还不得而知。

由于刚发布,目前只能简单看到官方提及:

字节版Sora火爆24小时,同名论文再次被热议

感兴趣的话可以亲自上手试一试来感受一下,目前豆包视频模型已在火山引擎开启企业用户的邀请测试;个人用户可在字节旗下的即梦AI申请内测。

官方声称,未来将逐步开放给所有用户。

那么,你期待这次的字节版sora吗?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-26 14:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

东信和平申请字节码指令执行专利,提升字节码指令的执行效率
...局信息显示,东信和平科技股份有限公司申请一项名为“字节码指令执行方法、虚拟机、设备、介质”的专利,公开号CN119938219A,申请日期为2024年12月。专利摘要显示,本
2025-05-10 09:55:00
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
...称为「2024年我最大的惊喜」的技术,技术路线竟和来自字节跳动之前公开发表的强化微调研究思路相同。OpenAI 12天连播的第二弹
2024-12-09 09:53:00
被字节起诉索赔 800 万的实习生拿下 NeurIPS 2024 最佳论文
...,人工智能领域顶级学术会议NIPS2024最佳论文近日出炉,字节跳动"破坏大模型训练"的前实习生田某某与字节合作论文被人工智能顶级会议NeurIPS评为最佳论文(BestPaper)
2024-12-04 21:05:00
被字节索赔800万的实习生:拿下NeurIPS 2024最佳论文!
快科技12月4日消息,据媒体报道,因恶意攻击字节训练集群,而被起诉赔偿侵权损失800万元及合理支出2万元,并公开赔礼道歉的实习生田某某,获得了NeurIPS 2024的最佳论文奖
2024-12-04 15:08:00
豆包“王炸”:字节跳动一天发布两款视频生成大模型
字节跳动正式宣告进军AI视频生成。9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,一举发布了豆包视频生成-PixelDance
2024-09-24 18:15:00
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
【新智元导读】太戏剧了!攻击字节训练集群的实习生,居然刚刚获得了NeurIPS 2024最佳论文奖?虽然看起来像爽文剧情,但这位高材生接下来的路,应该是难走了。刚刚,恶意攻击字节
2024-12-05 09:47:00
北大字节VAR最佳论文、厦大清华亚军,NeurIPS 2024最佳论文出炉
...)。一共有两篇论文获得最佳论文奖:一是由北京大学、字节跳动研究者共同完成的《Visual Autoregressive Modeling: Scalable Image Ge
2024-12-05 09:47:00
火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」
...打开更多场景。自今年 2 月 Sora 面世以来,很多人都期待字节的动作。拥有抖音和剪映这两个最强的视频 App 在手
2024-09-26 13:33:00
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
...的工作想要分享,欢迎投稿或者联系报道。本文作者来自字节跳动,南洋理工大学 S-Lab 和北京邮电大学。其中第一作者为南洋理工大学 S-Lab 的博士生 Yuanhan Zhang (https://zhangyuanhan-ai
2024-10-22 09:54:00
更多关于科技的资讯:
心脏检测只需30秒?中国移动河南公司用AI守护“心”生
大河网讯 “30秒检测、3分钟出结论,贴在手指就能完成专业级心电检测,这枚‘装在口袋里的心电图机’,正让心血管疾病早筛变得简单
2026-01-26 14:10:00
福建首个OPC共生社区在厦落地技术、算力加持,打造AI“抱团”创业新模式东南网1月26日讯 (海峡导报记者 刘彦玫) 人工智能技术的裂变式发展
2026-01-26 15:55:00
腾讯元宝内测“元宝派”,探索社交AI新形态
1月26日,腾讯旗下AI助手元宝低调开启全新社交AI玩法“元宝派”内测。从目前流出的内测截图来看,用户可以选择创建一个“派”
2026-01-26 15:56:00
鲁网1月26日讯会议收集的37条意见及建议正形成落实整改方案向公司党委会汇报。2025年以来,临沂联通以“倾听一线声音”的改革行动正持续释放效能
2026-01-26 16:29:00
临沂联通完成全市首个5G LAN业务验证落地 赋能多场景应用
鲁网1月26日讯近日,山东联通省市协同,在临沂顺利完成山东联通首个5G LAN业务落地验证工作,成功实现了基于5G专网与5G LAN技术的大二层组网部署
2026-01-26 16:31:00
自主干活能手登陆央视春晚舞台,银河通用为官方指定具身大模型机器人
1月25日,中央广播电视总台正式官宣,银河通用机器人正式成为总台2026年春节联欢晚会指定具身大模型机器人。当传承中华文脉的除夕守岁邂逅引领全球科技的具身智能企业
2026-01-26 16:59:00
再获认可!豌豆思维荣获“胡润百富2025年度素质教育影响力品牌”
2026年1月25日,豌豆思维凭借在课程创新与教学服务上的扎实实践,荣膺“胡润百富2025年度素质教育影响力品牌”称号
2026-01-26 16:59:00
心有归处,风行万里 | 第20届时尚旅游金榜盛典圆满落幕
1月23日,由《时尚》杂志社主办,《时尚旅游》杂志社承办的第20届《时尚旅游》金榜盛典在北京瑰丽酒店落下帷幕。本届盛典以“心有归处
2026-01-26 14:58:00
故城“焦”点:一位经销商与古贝春的二十三年长跑
古贝春故城经销商焦所维鲁网1月26日讯(记者 吴美琳)在冀鲁交界的故城县,白酒市场风起云涌,品牌大战如火如荼。然而,有一面旗帜二十三年始终屹立——古贝春
2026-01-26 14:08:00
章丘首店!三联家电强势入驻济南章丘世茂广场
鲁网1月26日讯山东家电零售领域的领军品牌——“三联家电”,近日传来重磅消息:其章丘区域首店正式落户章丘世茂广场!这一标志性举措
2026-01-26 14:08:00
哪些燃气热水器有一级能效?2026年高效热水器权威之选
在家庭能源消耗中,燃气热水器占据着显著比例。选择一台真正的一级能效产品,已成为2026年精明消费者的共识。这不仅是响应绿色低碳生活的号召
2026-01-26 11:13:00
科技赋能护平安!中国移动江苏公司无人机“空中巡查”守护市集烟火气
近日,宜兴CO.Five国际青年社区不凡市集火热开市,吸引了众多国内游客和国际青年前来打卡。市集上琳琅满目的手工艺品、特色美食与互动游戏
2026-01-26 11:14:00
2026 新年限定零食礼包推荐:全家共享的年味优选
2026 年新春将至,兼具新年限定属性与家庭装适配性的零食礼包,成为消费者走亲访友、居家欢聚的核心选择。中国广告主协会 x 艾媒咨询《2025 年中国新消费趋势洞察报告暨品牌营销 20 周年发展报告》指出
2026-01-26 11:45:00
即食海参十大领军品牌:蓬莱深奥 —— 以军工品质赋能海参深加工产业
在国产即食海参市场,品牌实力与产品品质始终是消费者与合作方的核心考量。而蓬莱深奥生物科技研究所(以下简称 “蓬莱深奥”)作为兼具 “即食海参领军品牌”与 “优质代工厂”双重属性的标杆企业
2026-01-26 11:45:00
MiniLED电视推荐-想买MiniLED电视别急着掏钱!先想清楚这四笔钱怎么花最值
你是不是也这样:下班回家想看电影放松,屏幕却反着窗户的光,主角的脸都看不清;周末朋友来家里看球赛,坐边上的兄弟抱怨颜色发灰
2026-01-26 11:45:00