• 我的订阅
  • 科技

火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」

类别:科技 发布时间:2024-09-26 13:33:00 来源:极客公园

火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」

更好的模型性能、更好用的模型服务,才能在产品上打开更多场景。

自今年 2 月 Sora 面世以来,很多人都期待字节的动作。拥有抖音和剪映这两个最强的视频 App 在手,字节的视频生成大模型,被寄予厚望。

这就来了。

9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。

在此之前,海内外不少现象级的同类模型产品相继发布,包括字节跳动相继发布的即梦、海绵音乐,和剪映(含 CapCut)中的新功能。秘而不宣的海绵音乐 App 更是被视为最适合中文的音乐生成 App、国内当之无愧的「Suno」。

字节为什么选择在多少有些「AI 产品看麻了」的 9 月,推出这几款 AI App 背后的大模型引擎?

对此,火山引擎总裁谭待向极客公园表示,不是按照某个固定计划精心设计什么节点发布,AI 模型进展日新月异,什么时候做好、适合对外就尽快发布。

这背后的逻辑是,火山引擎的定位是字节跳动的 ToB 云平台,模型对企业的开放由火山引擎来做,但推出产品前,需要先在内部使用,打磨到一定程度、做到企业级可用,才会向外推出。此前发布的豆包也是如此,先有字节内部推出的产品豆包 App,再有今年 5 月由火山引擎推出企业级可用的豆包大模型。

他补充说:「不一定要抢第一,要推出成熟的产品,因为模型对未来 10 - 20 年影响长远,做好积累后发先至也是好事。」

而火山引擎未来十年要驶向的远方,并不是一个、两个模型比如视频生成模型的领先,而是「成为全球领先的云和 AI 服务商」。

抖音和剪映加持,

字节视频生成大模型

更关注使用场景

视频生成大模型,成为整场发布会最大的亮点。

谭待表示,「因为视频特别难,我们一次性推出两个,充分解决视频里面的各种问题」。豆包家族新成员——豆包视频生成-PixelDance、豆包视频生成-Seaweed,正式面向企业市场开启邀测。

从现场展示来看,豆包视频模型可以根据文字和图片的输入,生成相应的视频。值得注意的是,字节跳动并没有公布其模型生成视频的最大时长,尽管后者被认为是体现技术能力的一大表现。

豆包视频生成大模型,更强调其在实际应用中、各种生活和商业场景所需的三个核心功能点。

首先是模型对复杂指令的理解遵循。以下图的视频为例,输入「特写⼀个⼥⼈的面部,有些⽣⽓,戴上了⼀副墨镜;这时⼀个男⼈从画⾯右侧⾛进来抱住了她」。

在这个相对复杂的描述下,豆包模型生成的视频呈现出了一个人情绪的变化、动作前后时间的变化,还出现了一个新的人物,这个新的人物跟原来的人物也有交互。换言之,豆包视频大模型能够根据指令实现时序性上有连续的动作指令,并且可以生成多个主体,并且让多个主体间进行交互。

豆包视频模型的第二个特点在于运镜,⾖包视频模型让视频在主体的⼤动态与镜头中进行切换,拥有变焦、环绕、平摇、缩放、⽬标跟随等多镜头语⾔的实现。

生成的视频可以灵活控制视⻆,更接近真实世界的体验|视频来源:字节跳动

第三个特点则是⼀致性多镜头。在 AI 生成的视频中,如何保证多镜头来回切时,不同主体在来回切换中的镜头是一致的,这也是当前行业的共性难点。

豆包在一个 prompt 下生成的视频,可以实现多个镜头切换,同时保持主体、⻛格、氛围的⼀致性。|来源:字节跳动

在谈及豆包视频生成大模型的特点时,谭待表示,豆包视频大模型背后有两方面优势,一是技术突破和全栈能力等优势,在技术上,字节在这两款视频模型上做了大量技术创新,比如通过⾼效的 DiT 融合计算单元、全新设计的扩散模型训练⽅法和深度优化后的 Transformer 结构,让整个⽣成视频的动作更灵动、镜头更多样、细节更丰满。

同时抖音、剪映对视频的理解也是优势。「剪映对视频的理解、对豆包视频生成模型有帮助,指令遵循做得好也离不开语言模型,豆包是全体系模型,底层有基座模型有助于更好地理解指令。」

在深入到视频场景的解决方案上,豆包视频模型支持不同题材类型,⽀持包括⿊⽩、3d 动画、2d 动画、国画、⽔彩、⽔粉等多种⻛格,包含支持 1:1,3:4,4:3,16:9,9:16,21:9 等多个比例,对应于电影、电视、电脑、手机等多个商业场景。

火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」

⾖包视频⽣成模型通过整个模型能把商品快速 3D,而且动态多⻆度展⽰,还能配合不同的节日,比如中秋、七夕、春节等节点快速替换背景和⻛格,⽣成不同尺⼨的内容发布到不同平台上,最终适合整体营销的战略完成。

在更聚焦的场景上,豆包视频模型也推出了更适配的解决方案,⽐如电商营销场景,可以让用户根据商品生成大量的配合营销节点的视频素材,并且适配不同媒体平台的不同尺⼨发布。

在视频发布环节,还有一个彩蛋,火山引擎带来了内部——剪映和即梦如何使用视频⽣成模型的实践案例。从抖音转战剪映 CapCut 的张楠(Kelly)通过数字分身 Kelly 的形式亮相。

火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」

在该数字人视频中,Kelly 数字分身的动作像真人一样自然,口型也可以与各国的不同语言完全适配。

这个案例也向外界展示了豆包视频大模型在场景上带来的新可能,比如自媒体、口播、营销、带货、企业培训等,不必亲自上阵进行拍摄,内容制作成本也可以大幅降低。

据悉,豆包视频模型不是期货,最新模型会在国庆节后上线到火山引擎方舟平台,即梦最新内测版已经使用了豆包视频生成模型-Seawe。

至于定价问题,谭待表示还没确定。他称「视频模型和语言模型应用场景不同,定价逻辑也不同。要考虑新体验 - 老体验 - 迁移成本,最终能否广泛应用取决于是否比以前生产力 ROI 提升很多。」

从「卷」价格,

回到「卷」性能

与视频大模型一同发布的,还有音乐大模型、同声传译大模型,和豆包主力模型的新升级。就像豆包视频模型的效果让人眼前一亮,上述模型产品也均有亮眼的性能提升。

这一系列新升级也反应了,火山引擎开始从「卷价格」到「卷性能」的转变,后者将会成为其下一阶段的战略重点。会后接受采访时,火山引擎总裁谭待重申了这一立场,他表示:「大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能、卷更好的模型能力和服务」。

早在今年 5 月,火山引擎推出的豆包大模型把价格降至最低每千 token 低于一厘钱,引发了大模型厂商的价格战。从那以来,模型厂商的整体模型调用量均出现了大幅提升。

据火山引擎披露,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时增长超十倍,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。

尽管如此,模型性能掣肘成为了模型调用量进一步提升的瓶颈,同时也是机会。谭待举例称,业内多家大模型目前最高仅支持 300K 甚至 100K 的 TPM(每分钟 token 数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM 峰值为 360K,某汽车智能座舱的 TPM 峰值为 420K,某 AI 教育公司的 TPM 峰值更是达到 630K。为此,豆包大模型默认支持 800K 的初始 TPM,超行业平均水平,客户还可根据需求灵活扩容。

此前 MiniMax 创始人闫俊杰向极客公园表示,从技术发展的角度看,模型推理成本 10 倍、百倍的降低是必然,只是时间问题,难的是通用模型的性能提升。

在看到从 ChatGPT 到 GPT-4,性能出现了大幅提升时,大模型领域也沿着 OpenAI 在模型预训练上做 Scaling Law,旨在用更多的数据、加更多的算力、提升模型参数量的做法来提升模型性能。随着这一路径的效率降低、优质数据耗尽的担忧,通过这一方法提升性能的路径陷入瓶颈。

现在,随着 o1 的出现,大模型在推理阶段引入强化学习的路径,带来了进一步提升模型性能的明确路径。

同时,随着更多企业在 AI 应用上的探索,也为模型性能的定向提升带来了很多工程调优手段。更好的模型性能、更好用的模型服务,才能在产品上打开更多场景,而这也将成为包括火山引擎在内的 AI 基础设施服务商们下一阶段的重点。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-26 14:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

字节猛踩油门
...,以更低的价格甚至免费形式,短时间内将大模型拉进“价格战”白热化阶段。 半年后的12月份,火山引擎再次加速,发布豆包视觉理解模型
2025-04-18 22:26:00
大模型卷向下半场:价格战之后如何成为真正“刚需”
...。而从今年5月开始,在几家大型厂商的带领下,大模型价格战愈演愈烈,国内“百模大战”步入新阶段。6月3日,澎湃新闻正式推出一线财经大调研直播——《超级公司》。首期走进国内一线人
2024-06-04 08:03:00
字节、阿里云、百度大模型价格混战:低价背后是数据竞争,爆款尚未出现
大模型价格战愈演愈烈。5月21日,阿里云宣布,通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0
2024-05-22 07:41:00
车圈大模型落地竞速:从好用到易用,从尝鲜到常用
...布以来凭借低于行业均价的定价策略,掀起了汽车大模型价格战,也进而向着更好模型、更易落地目标迈进。在字节跳动内部50+业务场景实践验证、每日万亿级tokens使用量持续打磨下,
2024-10-15 09:52:00
科大讯飞、阿里云、腾讯打价格战,大模型厂商“卷”起来
大模型之争愈演愈烈,如今多个品牌正掀起价格战。5月22日,科大讯飞宣布,讯飞星火API能力正式免费开放。其中,讯飞星火Lite API永久免费开放
2024-05-23 13:42:00
AI视频新战场:字节对决快手、反击Sora
... token 低于一厘钱,比行业便宜99.3%,燃起了大模型厂商的价格战。 字节视频大模型相关人士曾透露当下价格与市场份额之间的关系:价格降十分之一,量就可能涨十倍。这种量
2024-09-30 13:34:00
大模型“免费”送,厂商们图什么?
...传统电商行业不再喧嚣,但大模型市场却开启了惨烈的“价格战”,甚至部分企业直接免费送大模型服务。5月15日,字节跳动宣布
2024-06-05 10:57:00
本文转自:劳动报国产大模型打响“价格战”业内人士称今年迎来“AI应用爆发元年”■劳动报记者 陈宁 在刚刚结束的春季功能更新会上,OpenAI宣布了其最新模型GPT-4o,不仅
2024-05-23 02:54:00
大模型慢半拍,字节甘做“嫁衣”?
...具价格优势,这颇有点“降维打击”的意思。事实上,“价格战”已经开始了。4月26日,在2023阿里云合作伙伴大会上,阿里云推出了史上最大规模的降价:核心产品价格全线下调,降幅最
2023-05-05 10:34:00
更多关于科技的资讯:
学习机销售蹭上开学热 各品牌争相推出促销活动
家长和学生在厦门外图书城学习机品牌专柜选购。厦门网讯(厦门日报记者 郭睿)开学前,学习机市场迎来销售热潮。记者昨日走访厦门外图书城
2025-08-31 08:44:00
“两山”转化 黔东有“数”|数字赋能铜仁生态产品价值转化
8月28日,2025年“数据要素×”大赛贵州分赛获奖项目路演展示活动在贵阳举行,铜仁市申报的“基于数据要素乘数效应的生态信用数据资产开发与流通体系”项目
2025-08-31 11:10:00
鲁网8月31日讯8月31日下午,亚马逊云科技跨境出海峰会将在临沂沂河新区白沙埠镇天河产业园启幕,汇聚跨境电商企业、行业专家
2025-08-31 12:25:00
2025年上海合作组织峰会
2025-08-31 12:37:00
【2025数博会】阶跃星辰副总裁赵海涛:多模态是通向AGI的必经之路
8月29日,在2025数博会“数智无界·开放式创新驱动产业跃迁”主题活动上,阶跃星辰副总裁赵海涛以“多模态是通向AGI的必经之路”为主旨
2025-08-31 15:51:00
“鸿蒙生态学堂·游戏专班”上海开班!百名开发者共拓鸿蒙游戏生态新篇章
2025年8月28日至29日,由华为游戏中心与鸿蒙生态学堂共同主办的“鸿蒙生态学堂·游戏专场上海站”在上海浦东滨江喜来登酒店成功举行
2025-08-31 17:11:00
HarmonyOS教育行业解决方案,使能教育App高效上架、体验创新
为帮助开发者实现快速开发及上架,华为已推出HarmonyOS教育行业解决方案,结合HarmonyOS的技术特性如一次开发多端部署
2025-08-31 17:14:00
【2025数博会】南方电网电算科技数字工程(广东)有限公司钱琳:电碳算协同加快推动能源行业绿色低碳转型
“当前,数字革命与能源革命深度融合,电碳算协同已成为推动能源行业绿色低碳转型、培育数字经济新质生产力的关键路径。”8月29日
2025-08-31 20:01:00
2025年上海合作组织峰会
2025-08-31 20:14:00
【2025数博会】乘“数”而上,中国影视特效的“贵州算力密码”
8月30日,在2025中国国际大数据产业博览会数智基建馆内,贵州大数据局展馆算力展示区人头攒动,众多参会者被这里先进的算力成果吸引
2025-08-31 20:32:00
具身智能创业项目 合肥高新区最高奖励一千万元
大皖新闻讯 提供最高1000万元配套资金支持核心技术研发、创业团队最高奖励1000万元、每年安排5000万元算力券加速技术转化……日前
2025-08-31 22:02:00
2025年上海合作组织峰会
2025-08-31 20:52:00
2025年上海合作组织峰会
2025-08-31 16:41:00