• 我的订阅
  • 财经

视频生成大模型sora和可灵的区别在哪里?

类别:财经 发布时间:2024-06-26 14:27:00 来源:财经风云

大洋彼岸,Sora的到来,似乎让AI有了睁眼看世界的可能。在官方表述中,Sora被称为“世界模拟器”:它理解真实的规则,并在此基础上生成“世界”。

如果说从前还是一道铜墙铁壁,那么现在,虚拟与真实可能仅一线之隔。Sora之后,它的挑战者前赴后继。6月,视频生成大模型迎来又一轮新品爆发,生成式AI赛道像是“过年了”。快手可灵、LumaAI以及Runway迭代更新后的Gen-3Alpha等现象级爆品不断涌现。其中,讨论度最高的是快手自研视频生成大模型“可灵”,全面对标Sora。

记者将OpenAI官方公布的5条Sora视频提示词投喂给可灵,对其文生视频的能力进行测试,同时从动态、视效、细节、场景等多维度表现进行结果比对和关联。测试和观察后发现,虽然在部分维度Sora仍然领先,且可灵由于尚处开放初期,上线功能相对单一,生成存在一定限制,但几乎可以判断,国产视频生成大模型已经上升到了一个新的高度。

国金证券互联网传媒首席分析师陈泽敏在接受记者采访时表示,AI对不同世界观的快速理解以及在视频上的反应,令人感到不可思议。

视频生成大模型sora和可灵的区别在哪里?

如果说从前还是一道铜墙铁壁,那么现在,虚拟与真实可能仅一线之隔。Sora之后,它的挑战者前赴后继。图为人形机器人拿着画笔站在画架前进行创作,画像由人工智能生成。视觉中国图

在复杂场景叙述处理上呈现一定局限性

Sora之后,国内视频生成大模型不断推陈出新。

3月底,字节跳动旗下Dreamina(即梦)内测视频生成功能;4月底,生数科技首个文生视频模型Vidu发布;5月,腾讯也开源了DiT架构的混元文生图模型。

今年以来,快手先后发布1750亿参数规模的通用大语言模型“快意”和文生图大模型产品“可图”。视频生成大模型可灵则在6月推出,快手方面称,可灵能够生成大幅度的合理运动,模拟物理世界特性,生成的视频分辨率达1080p,时长最长可达2分钟。图生视频功能后续开放。

记者选取了OpenAI官方公布的5条Sora视频提示词(东京街头的女士、太空人、无人机视角的海岸、3D动画的小怪物、云端读书的年轻人)测试可灵。同时比对生成视频进行效果测试,从“画面呈现”“功能与体验”两大维度下的多个具体表现进行总结。

在画面呈现上:

1、动态效果。可灵的“镜头”普遍为前后向逻辑推进,Sora则更丰富。在“海浪撞击悬崖的无人机视图”一项,Sora画面的聚焦点在提示词中“有灯塔的小岛”,对整个环境进行环视,重点突出。可灵的镜头前后推进,小岛被设置在画面的最远端,没有重点突出小岛。不过,Sora和可灵对海浪的运动轨迹描述都很准确。

2、视觉效果。这一项上,Sora和可灵表现都较为优秀。特别是在“东京街头的女士”视频画面呈现上,无论是对霓虹灯色彩的展示,还是潮湿地面反光的呈现,两个模型的画面光影表达都很准确。

3、细节表现。记者重点关注到二者对人的五官的呈现。Sora的刻画更细致,特别是人在动态场景下,五官没有变形,几乎是相对静态的。可灵在动态场景下,人的五官有所变形,会随着画面镜头的推进以及人的动作而扭曲。

但在“3D动画的小怪物”生成上,可灵的细节表现与Sora差别不大,特别是对小怪物蓬松毛发特性的捕捉和呈现上,很精准也很细致。

4、连贯性和流畅度。Sora和可灵的画面表现均连贯、流畅,但稍有不同的是,对复杂场景的描述,Sora明显更优。特别是在“太空人”的画面生成上,可灵的画面只给出了太空人的正面特写,但Sora呈现了远近景的切换,添加了更多辅助元素,如飞船等。

在功能和体验上,Sora与可灵视频生成的风格都更偏向模拟真实世界的场景。无论是科幻场景、自然风光、超自然画面、3D动画等都更加侧重写实风格。

在不同场景的适配上,Sora的能力似乎更胜一筹。在对“云端上读书的年轻人”的画面生成上,可灵的贴图感更重,素材间的融合度不高。在语义的理解上,Sora和可灵都较为准确,特别是对提示词中不同主体的捕捉,都比较完整。

不过,需要注意的是,可灵目前生成的视频长度均为5秒,与Sora的10至20秒相比,前者在复杂场景的叙述处理上会呈现一定的局限性。上线初期的可灵,功能较单一,风格切换等有局限性。

此外,记者在体验时发现,在一些视频生成时,“可灵”也会“失灵”。例如,弹吉他的熊猫拥有人类的手指;提示词中“浅绿色的布艺沙发”,到了视频中呈现的则是红棕色的皮质沙发。同时,在一些视频中,当有多个主体时,有时也会出现一些元素无法完全呈现在视频中的情况。

在生成“10岁小女孩在羽毛球场比赛”时,小女孩手里的羽毛球拍变成了网球拍,且只有乒乓球拍大小,羽毛球也变成了网球。可见,实际生成视频时,可灵有时存在一些较大的偏差。

值得注意的是,上述可灵视频由记者测试生成,不同版本视频可能存在差异。而目前Sora仍未开放,所生成视频均为官方发布的版本,待Sora开放测试后,用户实际测试效果或许与官方发布视频也有差异。

视频生成大模型sora和可灵的区别在哪里?

视频生成大模型sora和可灵的区别在哪里?

视频生成大模型sora和可灵的区别在哪里?

视频生成大模型sora和可灵的区别在哪里?

可灵整体框架采用了类似Sora的DiT结构

“肯定是超出预期的,而且最先推出来比肩Sora的是快手团队,还挺意外。”多位在互联网行业深耕多年的资深行业人士、资深产业分析师在接受记者采访时坦言。

随着快手“可灵”正式开放内测,社交平台上,已有不少博主、创作者分享使用“可灵”的体验,国外创作者们也是各种求内测。虽然目前内测只能生成5秒视频,但已经有不少体验者通过多个视频组合成短片,不少网友笑称“压力给到了抖音剪映”。

早在2023年初,快手就启动了新AI战略,在最近几次财报电话会议上,快手联合创始人兼首席执行官程一笑也频频谈及快手自研大模型的研究及应用进展。不过,在很多人看来,快手更侧重于短视频和社交内容,而非专业的视频剪辑工具。在此前的大模型竞争中,快手也并不是引人关注的第一梯队成员。

此前,快手推出的通用大语言模型“快意”以及文生图大模型产品“可图”,在市场的关注度和影响力均相对有限。如今,“可灵”的出现,让国内大模型赛道看到了对标Sora“弯道超车”的可能。

记者了解到,在架构选择方面,可灵整体框架采用了类似Sora的DiT结构,用Transformer代替了传统扩散模型中基于卷积网络的U-Net。同时,在此基础上,快手大模型团队还对模型中的隐空间编/解码、时序建模等模块进行了升维。

在互联网产业深耕多年的某头部游戏公司高管李严(化名)认为,或许抖音未来也会推出类似的文生视频模型,但目前“可灵”的推出,最大的意义在于,它证明Sora的技术架构路线是可以被复现的,并且依托短视频平台的海量、优质过往数据,是可以后来居上的。同时,也说明之前Sora出现时业内对它“真实世界模拟器”的评价可能过高。

相关研报指出,目前,国内大语言及多模态大模型正持续追赶海外主流大模型,模型能力逐步提升,带动下游应用发展。过去几个月,国内头部应用总访问量与海外头部应用总访问量差距逐渐缩小,看好未来国内应用快速增长的趋势。

陈泽敏指出,虽然“可灵”抢跑为快手在文生视频赛道开了一个好头,但这条道路要持续走下去,仍需要很大投入。

“未来如果可灵(生成的视频)能够延长到15秒,并拥有连贯、不拖影、多元世界观融合的高质量视频,那一定会对短视频的生产方式带来影响,越来越多的创作者或许将被取代,但好内容的价值也会变得更高。”陈泽敏告诉记者。

AI生成赛道将迈入边际余量竞争

今年春节期间,OpenAI的文生视频大模型Sora横空出世,轰动整个科技圈,不少从业者将追赶Sora定为新的“小目标”。

灼识咨询相关报告数据显示,全球AI市场规模预计于2027年达到5624亿美元,中国AI市场规模(按收入计)已由2018年的560亿元增至2022年的1942亿元,预计于2027年达到6448亿元。

巨大的市场潜力之下,在文生视频大模型领域,Sora之外,Runway、Pika、StableVideoDiffusion等众多创业公司竞相角逐。

不过,在陈泽敏看来,虽然越来越多的公司身处AI大风口,但未来留下的公司将越来越少,行业将进入边际余量竞争。

“例如像英伟达这类确定性比较强的头部公司会更受资本关注,而对于软件服务这类公司,目前资本仍持怀疑态度。在AI生成赛道,仍是‘头部玩家胜者为王’的模式,头部胜者的集中度更高,小公司(前景)不容乐观。”陈泽敏表示。

虽然人人都想赶上AIGC(生成式人工智能)这趟“时代列车”,但今年以来,AIGC领域的投资风向正在悄然发生变化。

灼识咨询执行董事姜骁潇向记者分析表示,资本从对通用大模型的广泛关注转向更加聚焦于具有明确市场需求和实际应用场景的垂直模型。许多投资人现在更多的是观察而非直接投入大模型项目,并将实际投资更多地投向了具有更强商业化能力的应用层项目,资本更侧重于项目的商业化潜力和能力。

商业化前景成为市场和资本关心的问题。AI生成的内容,究竟能不能获得用户真金白银的支持,目前仍要画一个大大的问号。

姜骁潇认为,目前来看,大模型行业正处在应用拓展阶段。在这个阶段,AIGC技术将被广泛应用于各个领域,但目前AIGC行业尚未完全实现成熟的商业化。

“可灵和类似的文生视频大模型未来商业化潜力相当大。”姜骁潇观察到,在影视和广告制作中,文生视频大模型可以用于快速生成特效、场景设计和虚拟角色等,节省成本和时间,提高效率;在虚拟现实和游戏开发领域,这些模型可以用于生成角色动画和互动场景,为用户提供更加身临其境的体验等。

Sora释放的“冲击波”还在持续蔓延,官方发布的多个预览视频里,五彩斑斓的现实世界似乎已经被搬上虚拟频道。但Sora和它的挑战者们,并不想虚构世界,而是希望在理解真实世界的规则基础上,生成一个全新的世界。

“硅谷精神之父”、《连线》杂志创始主编凯文·凯利在2019年写道:“镜像世界尚未完全存在,但它正在到来。”而此前他曾预言,“万物都会有数字版本,这世间所有,都将在数字世界建立镜像”,至于还要多久,凯文·凯利认为,“是5000天后”。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-26 18:45:26

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...讯(记者 张洋洋)昨日,腾讯混元大模型正式上线视频生成能力,这是继文生文、文生图、3D生成之后,混元大模型的最新业务进展。与此同时,腾讯开源该视频生成大模型,参数量130亿,
2024-12-04 09:56:00
谷歌推出“文生视频”扩散模型
...自家最新开发的“Space-TimeU-Net”基础架构,号称能够一次生成“完整、真实、动作连贯”的视频。▲图源谷歌官方新闻稿(下同)谷歌表示,业界绝大多数“文生视频”模型无
2024-01-29 11:15:00
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...智东西12月3日报道,今天,腾讯混元大模型正式上线视频生成能力,这是在腾讯文生文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍,此次更新中,
2024-12-04 09:49:00
文生视频大模型,短视频的过弯点?
...就成为了国内厂商追逐的焦点。6月初,快手自研的视频生成大模型“可灵”正式上线。可灵AI采用了与Sora相似的技术路线,能够生成具有合理运动和模拟物理世界特性的视频。截至目前,
2024-07-30 14:08:00
曾经搅动A股的明星视频生成应用Pika又“杀”回来了。近日,Pika官宣已完成总额8000万美元的B轮融资,此轮融资后
2024-06-11 00:10:00
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...消息,10月14日,Adobe在Adobe MAX大会上宣布推出Firefly视频生成模型,并强化了现有的图像、矢量和设计模型
2024-10-17 09:52:00
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
7月26日,智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。南都记者关注到
2024-07-27 14:18:00
万兴科技AIGC概念迷雾:60秒文生视频能力遭质疑,开月薪10万招AI人才
...力上,已实现不同风格、丰富场景及主题的连贯性,一键生成时长支持60秒左右。这一视频生成时长,甚至可以比肩全球顶级大模型企业OpenAI在今年2月发布文生视频模型“Sora”。
2024-05-07 11:13:00
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...小伙伴又多了一个选择!今日,腾讯宣布旗下的混元视频生成大模型(HunYuan-Video )对外开源,模型参数量 130 亿
2024-12-04 09:48:00
更多关于财经的资讯:
华为新专利可实现手表150米潜水级防水
近日,华为技术有限公司“一种封堵组件、壳体组件及电子设备”专利公布。企查查专利摘要显示,本申请涉及电子设备防水技术领域
2025-11-13 13:48:00
陈丽君新增名誉维权案
近日,法院刊登陈丽君起诉葛某某网络侵权责任纠纷(名誉权纠纷)开庭公告。据悉,该案件计划将于12月17日,在杭州互联网法院开庭审理。
2025-11-13 13:48:00
广东华兴银行深圳分行因虚增存款被罚60万元 责任人遭警告
11月12日,深圳金融监管局行政处罚信息公示表显示,广东华兴银行深圳分行及相关责任人因贴现资金回流至出票人用于存单质押再开票,虚增存款被罚款60万元,吴某虹被给予警告。
2025-11-13 10:14:00
民生银行上海分行成功举办“全民星闪耀·悦动舞新生”广场舞大赛
2025年11月12日,民生银行上海分行主办的“全民星闪耀·悦动舞新生”广场舞大赛总决赛在沪圆满落幕。本次大赛自启动以来
2025-11-13 10:11:00
和谐健康保险乐山中支编制虚假财务资料被罚10万元 两责任人同步领罚
11月12日,国家金融监督管理总局乐山监管分局行政处罚信息公开表显示,和谐健康保险股份有限公司乐山中心支公司因编制虚假财务资料被罚款人民币10万元;相关责任人徐某翔被警告并罚款人
2025-11-13 10:13:00
蜂助手成立极算技术公司,含AI及物联网业务
近日,广东极算技术有限公司成立,法定代表人为罗洪鹏,经营范围包含:物联网应用服务;物联网技术研发;人工智能应用软件开发;人工智能基础资源与技术平台等。企查查股权穿透显示,该公司由
2025-11-12 10:48:00
通鼎互联在苏州成立新型材料公司
近日,苏州通鼎新型材料有限公司成立,注册资本5000万元,经营范围包含:电子专用材料制造;有色金属合金制造;有色金属合金销售;有色金属压延加工等。企查查股权穿透显示,该公司由通鼎
2025-11-12 10:48:00
由中建八局城市运营携手健康集团、正和承邦共同打造的南京青奥城市客厅项目亮相2025南京体育产业高质量发展大会
近日,由南京文旅集团(筹)主办,南京体育产业集团、南京市体育产业联合会共同承办的“青奥赋能,文旅融合”2025南京体育产业高质量发展大会在宁举行
2025-11-12 10:50:00
前10个月福建汽车出口量同比增长60.9%
东南网11月12日讯 (福建日报记者 尤方明 通讯员 李凤灵 陈雅莹) 据厦门海关统计,今年1—10月,福建共出口各类汽车11
2025-11-12 11:01:00
宠物消费结构在升级!企查查:超3成宠物经济相关企业在华东
据媒体报道,一年一度的“双十一”消费大促临近尾声,宠物品类的消费热度节节攀升,成为不容忽视的大促主战场。数据显示,10月15日
2025-11-12 11:36:00
百年工运 “新”火相传——平安金服济南分公司第九届趣味运动会盛大开幕
金秋送爽,活力满场。近日,济南分公司第九届趣味运动会在热烈氛围中正式拉开帷幕,300余位同仁齐聚赛场,共赴这场兼具欢声笑语与团队精神的体育盛会
2025-11-12 11:42:00
10年封神!奈雪草莓季重磅回归,健康新品登趋势热榜
每年冬季,手握一杯奈雪的霸气草莓,早已成为无数消费者的冬日仪式感。11月11日,健康茶饮领导者奈雪的茶“草莓季”如约而至
2025-11-12 11:44:00
“平安有我,益起同行”平安一家亲健步跑,以脚步诠释责任担当
近日,“平安有我,益起同行”2025中国平安驻山东地区“一家亲”健步跑活动,在济南森林公园正式鸣枪开跑。近130名平安驻鲁专业公司员工代表身着统一赛事服装集结赛道
2025-11-12 11:46:00
“小橙帽”平安守护者在行动——平安银行济南分行为民办实事
为践行以人民为中心的发展思想,将“为民办实事”落于实处,平安银行济南分行积极组建“小橙帽”平安守护者志愿服务团队,在各地组织开展“银龄守护”
2025-11-12 11:47:00
让“使用算力像水电一样简单”|回眸“十四五”·高质量发展这五年
在东数西算(贵州)智算中心大楼前,贵州电信云网发展部副总经理黄代勇注视着屏幕上的算力调度数据,这些跳动的数据,正是他深度参与建设的贵州电信“东数西算”项目最真实的“脉动”
2025-11-12 12:04:00