• 我的订阅
  • 科技

一日连发两款视频大模型,火山引擎要让每个人都能用上AI

类别:科技 发布时间:2024-09-25 15:00:00 来源:雷科技

9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,并首次对外发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款AI大模型,并公布了多项AI大模型的全新升级,以一种全新的姿态迎接AI时代的到来。

雷科技此次受邀参与巡展,在活动现场就发现了不一样的东西,现场设置了四个不同的展示区,用来展示目前AI大模型在C端最受欢迎的四款应用:AI奇遇、AI音乐、AI智能助手和AI Bot,分别对应娱乐、创作、问答和个性化AI需求四大板块。

一日连发两款视频大模型,火山引擎要让每个人都能用上AI

图源:雷科技

这一系列的AI应用中,AI Bot受到了许多人的关注,这是一个全新的AI应用开发平台,利用AI大模型的强大理解能力,帮助用户开发专属于自己的AI应用。你不需要懂得编程、调试、DeBug,只需要按部就班地给出自己的需求,剩下的一切AI都会帮你完成。

此前,雷科技上线的小雷Bot就是基于AI Bot打造,利用雷科技过去十年积累的海量文章与评测数据,为读者提供购买咨询、产品问答等多项功能。

而在AI奇遇中,用户可以扮演一个角色,偶遇某些人或故事,通过用户给出的反馈,故事也会发生相应的改变,一切均由AI实时生成,让每个人都有独属于自己的故事。这项技术不仅可以让用户创作出属于自己的故事,同时也能为游戏厂商提供新的创作思路,真正做到千人千面的故事情节塑造。

至于AI问答,大家估计都不陌生,作为AI大模型最早期的应用,豆包对AI问答进行过多轮升级,如今已经支持最高256K的上下文理解,并且能够进行复杂的逻辑推理,满足用户多样化的提问需求。

还差个AI音乐?别急,我们待会再来聊聊。

用AI打破视频创作边界

在视频创作领域,火山引擎及其背后的字节跳动,恐怕是最有发言权的,抖音在全球掀起的全民视频创作热潮,造就了一个全新的互联网视频时代。所以,火山引擎的视频生成模型更关注用户在实际使用时的创作流程和创作效果,而不仅仅是简单地生成画面和动作。

一日连发两款视频大模型,火山引擎要让每个人都能用上AI

图源:雷科技

火山引擎希望用户可以在视频生成模型中,得到与实际拍摄几乎一致的画面效果。为此他们对视频生成模型进行了大量的优化,基于DiT架构结合高效的DiT融合计算单元,让视频生成模型拥有执行复杂指令的能力,并且能够根据要求进行大动态和运镜的切换,在专业拍摄中常用的变焦、环绕、平摇、缩放、目标跟随等镜头语言效果,大模型都能做到。

借助运镜切换功能,豆包视频生成模型可以真正提供更真实的拍摄效果,并且让创作者更好地展示自己的创意想法,这在以往的视频生成大模型中少见的。

而且,火山引擎还攻克了视频主体在运动时,经常会出现的服装、头饰、光影、风格突变问题。这类问题此前一直困扰视频生成模型用户,因为人们对连贯画面里的突兀变化会更加敏感,所以即使只有些许的差异,也会让观看体验大打折扣,而AI生成的不确定性,让AI视频在这方面的问题显得尤为严重。

对此,火山引擎借助DiT架构的多种特性,让视频生成模型能够对生成的画面元素进行标记,并在后续的生成中时刻保持相关元素的存在。虽然并不能保证完全的一致,但是已经能够最大程度消除明显的服装、配饰、风格变化等问题,确保视频画面不会出现易察觉的BUG。

一日连发两款视频大模型,火山引擎要让每个人都能用上AI

图源:雷科技

此外,火山引擎还解决了多动作指令互动、人物中途插入等痛点,在现场的演示视频中,就有这样的片段:一个女人生气地看向侧边,然后转头戴上眼镜,此时一个男人出画面边缘进入,拥抱住女人。虽然在传统拍摄中,这是一个很普通的镜头,但是在AI视频里,却要求AI在表情神态、多动作执行、新元素插入等方面都不能出错,才能生成一个合格的视频。

随后火山引擎还展示了多个由豆包视频生成模型制作的AI视频,从多人互动到运动长镜头,都可以在保证视频流畅度的同时确保视频元素的一致和主体风格不变化。在我看来已经完全满足日常的创作需求,如果愿意花更多的时间去打磨,即使是普通人也能坐在家里用AI制作出一部大片。

为了满足更多用户的创作风格需求,火山引擎还引入了深度优化的Transformer结构,大幅度提升了豆包视频生成模型的泛化能力,不仅支持3D动画、2D动画、国画、黑白、厚涂等多种风格,还支持多种比例的视频生成,让模型能够被应用到各个领域。

显然,这也是火山引擎对豆包视频生成模型的期待,成为每一个创作者的助手,让每个人都能创作出属于自己的作品。

豆包AI模型Pro升级

豆包视频生成模型并非巡展中唯一的看点,火山引擎同时还宣布了豆包通用模型、音乐模型等多个模型的全面升级,现在,豆包AI大模型可以给大家在更多领域提供更好的体验。

比如前面提到的AI音乐,在展示区中雷科技就已经体验到了其强大的创作能力,在极短的时间里就能生成一首朗朗上口的音乐,根据要求切换不同的曲风并生成歌词。可以说,豆包音乐生成模型已经成功打通了整个AI音乐的创作链路,普通的创作者不需要再纠结歌词、曲风和演唱效果,只需要说出要求,然后点击生成即可。

虽然现场试用时感觉创作流程非常简单,背后却是火山引擎的「负重前行」,通过对音乐模型的全面升级与优化,结合独特的音乐生成通用架构和全新的解码模型,豆包音乐生成模型能够以秒为单位完成音乐生成,并且呈现出更真实的演唱效果。

一日连发两款视频大模型,火山引擎要让每个人都能用上AI

图源:雷科技

实话说,在现场聆听演示音乐时,周围不少嘉宾都下意识发出感叹:“这个真的不错”,如果不提前说是AI创作的话,估计不少人会误以为是某个新锐歌手的作品。

从视频到音乐,火山引擎已然攻克了AI创作的两大难关,并且完成了整个AI创作链路的整合:豆包通用模型完成故事脚本、文生图模型完成前期视觉设定、视频生成模型与音乐模型完成作品素材创作,最后再由剪映提供AI智能剪辑支持,让视频创作的门槛与难度得到前所未有地降低。

一日连发两款视频大模型,火山引擎要让每个人都能用上AI

图源:雷科技

火山引擎还在现场展示了全新的数字人生成应用,仅需数分钟即可完成数字人生成,并在数秒内进行音色克隆。简单的操作就可以让用户得到一个专属数字人,拟真的神态和语气,可以满足直播、在线教学、智能客服对话等多个领域的应用。

此外,豆包的数字人还能与同声传译模型结合,让数字人随时切换不同的语言进行对话,这项功能在现场也引起了许多关注。近年来,出海、海外直播市场已经成为电商生态的另一个支柱,但是能够熟练掌握外语的主播数量却远无法满足市场需求,利用数字人+同声传译模型制作的外语主播,将有望成为市场的新选择,这也是火山引擎向泛领域进军的一个重磅项目。

一日连发两款视频大模型,火山引擎要让每个人都能用上AI

图源:雷科技

从视频、音乐到数字人,火山引擎正在构建一个涵盖多领域的AI创作生态,推动着AI技术走向更加广泛的行业应用。未来,随着这些技术的持续优化与普及,无论是内容创作者还是企业,都能够在AI生态中找到更高效的创作方式,开启全新的智能化创作时代。

让所有人都能用上AI

为了满足日益高企的AI模型需求,火山引擎一直在升级大模型的承载能力。目前业内多数大模型最高支持300K甚至100K的TPM(每分钟token数),而豆包大模型的默认并发流量标准已经提高到800K TPM,是行业普遍标准的2-8倍以上,并且允许用户灵活扩容。

与业界最高并发流量标准相辅的,还有进一步降低的算力成本。

在会后的采访中,火山引擎CEO谭待提到,火山引擎是业内最早降低算力成本的大模型团队之一,截至目前豆包大模型的算力定价已经低于行业99%,目前定价仅为0.0008元/千Tokens,引领算力成本进入「厘」时代。

谭待认为,只有算力成本降低,才能解锁更多的应用场景,降低开发者的进入门槛,并且减少运营成本支出,才能形成更好的AI应用生态。而且,降低成本也带来了更高的调用量,让大模型获得更好的成长,得以进行快速的迭代升级。

在今年5月份推动降价后,仅4个月的时间豆包调用量就达到每天13000亿次,是5月份的10倍,市场里的AI应用覆盖增长显著,而且火山引擎在降价的同时还在提升大模型的整体能力,降价提质也让更多的开发者热衷于豆包大模型。

作为字节跳动的2B云平台,火山引擎此前就对企业开放了大量的底座模型,这在大模型团队中并不多见。针对这个问题,谭待也做了进一步的解读,火山引擎选择开放底座大模型的初衷就是推动行业创新,通过对豆包大模型的技术进行整合,为企业端提供更安全、稳定的底座大模型,并非简单地将豆包大模型丢给企业,而是从企业端的需求出发,提供更多的服务与应用,助力企业进行AI创新。

此外,采访中还提到了Sora,作为最早的视频生成模型之一,Sora的问世一度引起广泛关注,但是至今为止Sora仍未公开发布,以至于被业内称之为「期货」。因为对算力的高要求,视频生成大模型的全面开放一直存在不小的阻力,这也让我们担心豆包视频生成大模型是否可以在短期内放出。

对此,谭待充满了信心,因为豆包并非一个独立的视频生成模型,其本质上是依托于豆包通用模型等一系列技术的成果,所以许多技术挑战在此之前就已经解决了,同时火山引擎也一直在优化视频生成模型的效率,使其能够更快地进入公开市场,目前在即梦AI等功能里已经可以申请内测体验,并且在国庆节后会放出更多的公开API。

谭待在采访中还特别强调了技术积累和长期规划的重要性。他指出,火山引擎的目标不仅仅是解决当前的市场需求,更是在为未来的AI发展打下坚实的基础。通过持续优化底层技术架构,火山引擎能够以更低的成本提供更高质量的服务,从而保持技术领先优势。

最后,谭待认为随着AI技术的不断成熟,拥有庞大用户和企业支持的火山引擎将继续保持在行业内的领先地位。未来几年,火山引擎将持续专注于技术深耕和行业落地,通过更高效、更智能的AI解决方案帮助企业实现数字化转型和创新发展。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-25 17:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」
...模型,被寄予厚望。这就来了。9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。在此之前,
2024-09-26 13:33:00
终于拿到内测!豆包-PixelDance真是字节视频生成大杀器
「火山爆发,震撼天地。」这八个字会在你的头脑中触发怎样的影像?是否与下面的视频类似?视频链接:https://mp.weixin
2024-09-30 09:51:00
火山引擎发布大模型训练视频预处理方案 已应用于豆包
10月15日消息,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案。目前,该技术方案已应用于豆包视频生成模型。火山引擎总裁谭待在活动致辞表示,在AIGC、多模态等技术的共
2024-10-15 15:07:00
火山引擎发布豆包大模型文旅解决方案
8月15日,火山引擎「AI创新巡展」第二站在厦门举办。活动中,火山引擎首次发布了大模型文旅解决方案,以字节豆包大模型和火山引擎AI全栈云基础设施为底座,结合抖音内容生态,助力以厦
2024-08-16 16:03:00
豆包大模型综合能力提升20.3%,火山引擎成立零售大模型联盟
8月21日,2024火山引擎 AI 创新巡展在上海举办,带来豆包大模型的一系列产品升级。豆包语音模型和视觉模型再升级,对话式 AI 实时交互解决方案进一步强化 AI 交互体验
2024-08-23 13:41:00
全面AIGC时代,豆包模型家族准备好了
AI时代,大模型更新的速度是多少?火山引擎的答案是:两个月。今年5月,火山引擎一口气推出了9款豆包大模型家族;紧接着,7月在「AI创新巡展」成都站中发布了豆包·图生图模型;9月2
2024-09-26 13:49:00
豆包“王炸”:字节跳动一天发布两款视频生成大模型
...节跳动正式宣告进军AI视频生成。9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,一举发布了豆包视频生成-PixelDance
2024-09-24 18:15:00
字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型
火山引擎总裁 谭待火山引擎总裁谭待表示,企业要做好大模型落地,面临模型效果、推理成本、落地难度的三大关键挑战:既要有好的基础大模型做支撑,解决复杂难题,也要有低成本的推理服务让大
2024-05-15 16:16:00
豆包再降价,字节“饱和式”进攻仍在继续
大模型应用大战即将一年整,竞争依然激烈。12月18日的火山引擎Force冬季大会上,字节跳动“豆包全家桶”又迎来了新成员。豆包视觉理解模型正式亮相,其具备更强的内容识别、理解和推
2024-12-20 09:25:00
更多关于科技的资讯:
■王鑫摘要:在数字化转型的背景下,企业财务管理正面临由传统核算型向智能决策型的系统性变革。本文从数字化发展的实际需求出发
2025-12-31 04:48:00
1元租机器人,线下开首店:人形机器人打响大众化“发令枪”
大皖新闻讯 2025年的最后两天,中国的人形机器人产业以两件标志性事件,为即将到来的2026年按下了商业化加速键。一边是擎天租以“1元闪租”的体验价格将可以“打太极”的人形机器人推向大众市场
2025-12-30 21:48:00
从\
鲁网12月30日讯12月30日,在济南召开的"永生之手叩响仿生机器人元年之门"主题峰会上,山东未来机器人技术有限公司首次提出将人类生命划分为"碳基阶段"与"硅基阶段"的颠覆性理论框架
2025-12-30 22:13:00
贵州艺森源集团:从手工敲打到智能轰鸣 书写酒包装产业升级答卷
多彩贵州网讯 近日,贵州艺森源集团有限公司生产车间内,智能设备高效运转,自动化生产线有序作业,一派繁忙景象。历经十年深耕
2025-12-30 22:38:00
浪潮智慧文旅“智享商旅 聚力同行”2025浪潮商旅服务日成功举办
鲁网12月30日讯12月25日,由山东浪潮智慧文旅产业发展有限公司主办、山东浪潮智慧空间技术服务有限公司承办的“智享商旅·聚力同行——2025浪潮商旅服务日”在浪潮科技园圆满落幕
2025-12-30 17:23:00
潮新闻讯 浙商,是商业期刊的常客。2025年,他们的名字却接连登上《细胞》(Cell)《自然》(Nature)《科学》(Science)等学术期刊的作者栏
2025-12-30 17:52:00
扎根毕节十年,年产能超7500万只,出口覆盖欧非亚——贵州贵航新能源科技有限公司,已成为推动区域新能源产业链发展的“关键一环”
2025-12-30 18:35:00
肯悦咖啡苹果冰雕点亮冰城 代言人白敬亭助阵亮灯迎新春
2025年12月29日,肯悦咖啡在哈尔滨中央大街举办了一场别开生面的“红苹果心愿季”冰雕点灯仪式。肯悦咖啡的巨型红色咖啡杯造型冰雕搭配“水晶”苹果
2025-12-30 18:50:00
博士创新站典型案例|保定市鑫诺电科软件开发有限公司博士创新站:校企协同创新赋民生
当前供水行业智能化转型加速推进,保定市鑫诺电科软件开发有限公司作为本地企业,在技术层面面临自主开发的智能客服系统缺乏适配技术
2025-12-30 19:36:00
京东京喜自营2025年成交额增长10倍 5大产业带订单量破亿
2025年即将结束,回看这一年,外贸逆袭、市场反内卷、AI全面爆发,用户消费需求回归理性,带动品质消费。今日,京东旗下特价购物品牌京喜自营披露了这一年的成绩单——2025年实现成交额10倍增长
2025-12-30 19:48:00
事关以旧换新!河南公开征集
大河网讯 为深入推进2026年消费品以旧换新政策实施,河南省商务厅日前正式发布《河南省2026年消费品以旧换新家电及数码智能产品参与品牌厂家征集公告》
2025-12-30 19:55:00
博士创新站典型案例|英利能源发展有限公司博士创新站:携手高校突破技术瓶颈
在全球“双碳”目标推动下,光伏产业成为新能源领域核心赛道。晶体硅太阳电池占据光伏市场主要份额,但高效光伏电池需切割分片制成组件
2025-12-30 18:04:00
博士创新站典型案例|石家庄数英仪器有限公司博士创新站:攻克高次谐波源国产化难题
随着新能源发电并网比例不断提高,光伏逆变引入的谐波频率日益升高,对电网谐波测量提出了新的技术要求。当前,国内市场主流谐波标准源的谐波次数普遍低于100次
2025-12-30 18:16:00
还在用App来回倒腾文件?鸿蒙6一碰即传,感受分享的魔法
傻瓜相机的发明,将人们从复杂的调焦、测光操作中解放出来,把摄影门槛拉低到有手就行。而在这个随身电子设备越来越多的时代,人们需要在跨设备文件
2025-12-30 13:04:00
把数字安全感还给用户:HarmonyOS 6的三道主动防御防线
在万物互联的数字时代,个人隐私的边界正变得日益模糊。我们或许都曾经历过这样的时刻:经常接到诈骗骚扰电话,或是家人手机里充斥着乱七八糟
2025-12-30 13:05:00