• 我的订阅
  • 科技

全面AIGC时代,豆包模型家族准备好了

类别:科技 发布时间:2024-09-26 13:49:00 来源:硅星人

全面AIGC时代,豆包模型家族准备好了

AI时代,大模型更新的速度是多少?

火山引擎的答案是:两个月。

今年5月,火山引擎一口气推出了9款豆包大模型家族;紧接着,7月在「AI创新巡展」成都站中发布了豆包·图生图模型;9月24日,「AI创新巡展」深圳站中,豆包模型家族再次全新发布两款豆包·视频生成模型:豆包视频生成-PixelDance、豆包视频生成-Seaweed,并面向企业市场开启邀测。

活动中,火山引擎总裁谭待同时发布了豆包·音乐模型及豆包·同声传译模型,豆包通用模型pro和豆包·文生图模型、豆包·语音合成模型等模型性能也迎来大幅升级。

一句话总结:豆包模型家族已经集齐了文本、语音、图片、音乐、视频的AIGC全家桶共计13款模型,不断增加各类模态,并进入规模化调用时代。

在4个月2次迭代的过程中,据火山引擎披露,截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时猛增十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

这些真实数据背后,是豆包大模型通过火山引擎不断深入产业的结果。同时,也证明了AIGC能力在企业中并非找不到场景落地,而是在基础版图未完整之前,很难综合性地解决企业存在的痛点。

多家企业曾向硅星人反馈到:“企业内部做了很多AIGC的尝试,但文本是一个工具、生图是另一个工具、做视频又要换,步骤仍然非常繁琐、数据更加碎片化了。”

在AIGC发展的早期,功能的多样性往往比性能更重要。而豆包的这次升级后,一站式打通各个内容场景,持续深耕细作,让AIGC真正落到实处。

让视频生成真正做到可商用

今年2月Sora爆火后,国内外视频生成模型和产品迎来了迭代高潮,但大多都存在于2C的娱乐场景中,并不能被应用到企业或者严肃的商业环境,核心的痛点在于生成效果不稳定和生成结果不可用。

这也是豆包·视频生成模型要攻克的难题。

过往的视频生成模型已经完成了单个主体的单场景和多场景变化,但物理环境往往更加复杂有多个主体间的相互作用,这对于人和AI来说都是更强的挑战。

经测试,豆包·视频生成模型能够遵循更复杂的指令,让不同人物完成多个动作指令的互动,精确理解语义关系,解锁时序性多拍动作指令,而非单一主体的简单动作。

如镜头前一位喝咖啡的男士,在他端起咖啡杯的同时身后一名女士从画面右侧出现,两个主体的大幅度动作符合物理世界的规律和逻辑。

同时,基于DiT架构,豆包视频模型通过高效地融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。

在这个过程中,根据剪映、即梦AI等业务场景打磨出来的经验,让豆包·视频生成模型对于专业级光影布局、色彩调和、画面视觉美感和真实感都有了更成熟的判断。

简单的说,以前的视频生成模型生成的是单一拍摄素材,而豆包·视频生成模型则直接生成了有导演、美术指导、后期的大片片段,让生成结果变得更可用。

在风格方面,基于深度优化的Transformer结构,则大幅提升了豆包视频生成的泛化能力,支持3D动画、2D动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例,不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。

同时,在技术层面全新的扩散模型训练方法攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性,可10秒讲述一个起承转合的故事。在一个prompt的多个镜头切换时,保持主体,风格,氛围和逻辑的一致性。

目前,新款豆包·视频生成模型正在通过火山引擎邀测中,未来将逐步开放给所有用户。

全面AIGC时代,豆包模型家族准备好了

多主体、多风格、丰富的运镜切换、保持一致性,以上种种的技术手段,都大大增加了生成结果的信息密度,让AIGC的效果变得真正可用。

举几个例子,在电商营销场景的商品详情视频,能够快速把商品变成3D多角度展示,基于一致性的功能,切换中秋、七夕、春节等不同营销节点的风格,即不同尺寸快速上架。

在动画教育行业:动画制作成本较高,并且内容有大量超现实想象,同时文生视频可以降低动画的制作成本,低门槛地实现童话故事中的想象情景等超现实画面。

沿着这个思路,能快速衍生到游戏、城市文旅、音乐MV、短剧等更多的应用场景中。

大模型toB,要做六边形战士

今年5月,豆包进行了史上最大规模的降价,彼时,价格是影响大模型落地最难的大山。

作为基础设施提供商,谭待曾在采访中提到,火山引擎的核心目的是通过更低的价格,让企业拥有更低的试错成本,从而敢尝试、有创新。

从这个角度来看,无论是视频生成模型还是音乐、同声传译模型,虽然模型种类复杂,但其核心目的还是在解决企业智能化的问题:即将企业的使用门槛降到最低,把创造力提到最高。

而之所以会推出当前的几款能力各异的模型,谭待总曾经告诉过我们,豆包团队在后台观察企业调用模型能力的token次数,最高频的也是使用最多的模型,将单独打造为一款模型为企业提供服务。

在AI1.0时代,翻译一直是检验AI能力的一个实战场景,但经过多年迭代,也只能做到异步翻译或者说延时翻译,但在大部分的应用场景中,如跨国会议、线上直播、跨境电商客服等等都需要的都是更准确的实时翻译,在严肃的商业场景中,一个细微的不准确可能会带来严重误差。

豆包·同声传译模型便是从企业的场景出发,但这却给模型层提出了更大的挑战。

据谭待介绍,传统的AI同声传译通常采用级联模型方法,即先进行语音识别再进行机器翻译。但准确率低,实时性差,且翻译的声音体验不好。而豆包·同声传译模型采用了端到端模型架构,让翻译更加精准、质量更高、时延更低。同时会模拟说话人的真人发音,媲美真人同传效果。

而对于音乐场景而言,是一个更复杂的场景,也是对多种技术的综合考验。从歌词、旋律、编曲到音调唱法,因此豆包的音乐模型采用了全新的方案,实现了音乐生成的框架,从词、曲、唱三个方面来生成高质量的音乐。

无论用户是给出一段文字描述还是上传一张图片,基于豆包的文本能力都可以给出与旋律节奏匹配的歌词,更注重情感表达和与音乐风格高度契合。

同时,全新的音乐模型支持10余种不同的音乐风格和情绪表现,尤其在民谣、国风和流行方向适合国内听众的审美听感,包括民谣、流行、摇滚、国风、嘻哈、R&B、朋克、电子、爵士、雷鬼、DJ等,风格可以自由切换。

配合匹配真人效果的音色延长,真实呈现气口和真假音转换,并支持高质量音质听感。

目前,火山引擎AI创新巡展已经完成了第五站,在每一站中,模型的能力都会进一步提升。除了推出新的模型,基模能力也在不断进步。

随着企业大规模应用,大模型支持更大的并发流量正在成为一个新的挑战,据谭待介绍,业内多家大模型目前最高仅支持300K甚至100K的TPM(每分钟token数),难以承载企业生产环境流量。为此,豆包大模型默认支持800K的初始TPM,远超行业平均水平,客户还可根据需求灵活扩容。

除了本身模型的更新,火山在模型的应用落地上,也提供了全套的方案,包括火山方舟、扣子专业版和HiAgent平台,帮助企业打通拥抱大模型的最后一公里。

全模态的模型能力、市场更低的模型价格、超出行业的模型性能、配套的工具箱和生态,至此,豆包模型家族成为了真正的「六边形战士」。

但活动中谭待也坦言大模型toB过程中的挑战:“在企业应用场景里,挑战会更加复杂。我们不仅仅要考虑模型能力,还要考虑成本、性能、安全和易用性。”

这不仅需要突出的模型能力,对于企业来说,模型厂商的综合能力意味着企业自由度、创造力各方面都会更高。

从企业中来,到企业中去

从企业痛点出发打磨出来的模型能力,最终,还是要回到企业中去,真正发挥效用。

有了更强的模型、更易落地的方式和更低的价格,让企业开始能够“用得上”,而这只是AIGC落地产业中的第一步。在探索的早期,不断的试错成本、新的模型、配套的生态能力,是培育的土壤,接下来才是真正的实战。

这不仅仅是模型厂商独立能够完成的挑战,还需要与企业客户更紧密的合作。

此前,火山引擎已经在重点行业:零售、汽车、智能终端成立了行业大模型联盟,通过与合作伙伴一起探索大模型的产业应用。

比如,在零售大模型生态联盟,通过AI交互重构零售效率和体验。在商城导购助手、VOC(消费者需求)洞察分析、客服质检、客服陪练、直播洞察、商品知识库等场景中,都与联盟成员展开了多维度的合作。

在模型能力上,豆包大模型作为技术提供商独立研发,但在产业落地中,却一个个场景精细化打磨。

独行快。众行远。这次升级后,豆包模型家族能力正式进入了get ready的状态,也意味着开启了下一个艰难的新赛段。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-26 14:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

火山引擎发布豆包大模型文旅解决方案
...动中,火山引擎首次发布了大模型文旅解决方案,以字节豆包大模型和火山引擎AI全栈云基础设施为底座,结合抖音内容生态,助力以厦门为代表的旅游城市重塑文旅形态,打造更加新奇智能的旅
2024-08-16 16:03:00
字节跳动发布豆包大模型 日均处理千亿级Tokens
华商网讯(记者 姬文艳) 5月15日,字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎是字节跳动旗下云服务平台,据火山引擎总裁谭待介绍,经过一年时间的迭代和市场验证,豆
2024-05-15 11:30:00
全面透视豆包:功能、版本、价格、优势、应用
本文将深入探讨豆包的功能特点、应用场景、费用结构以及企业应用优势和注意事项,帮助读者全面了解并合理利用这一AI工具,提升个人和企业的效率与竞争力。一、豆包介绍豆包是字节跳动公司基
2024-07-24 14:44:00
豆包再降价,字节“饱和式”进攻仍在继续
...然激烈。12月18日的火山引擎Force冬季大会上,字节跳动“豆包全家桶”又迎来了新成员。豆包视觉理解模型正式亮相,其具备更强的内容识别、理解和推理、视觉描述等能力;明年1月
2024-12-20 09:25:00
豆包大模型将发布视频生成模型,带来更多模型家族的能力升级
9月18日消息,字节跳动今日宣布,豆包大模型将于9月24日发布视频生成模型,并带来更多模型家族的能力升级。9月24日14:30,2024火山引擎AI创新巡展・深圳站将于深圳举行,
2024-09-19 05:44:00
约4万亿的日均调用Token数量,将豆包大模型再次聚焦在行业镁光灯下。货比三家,从日均调用Token数量就不难看出,越来越多的客户选用了豆包大模型。另外,随着近日豆包视觉理解模型
2024-12-23 11:49:00
机构密集调研豆包概念股!龙头12天7板,热门股名单来了
抖音豆包概念股持续活跃,旗下产品EnableAI为字节等客户提供AI应用开发全生命周期数据服务的汇洲智能周五收盘12天7板
2024-12-21 17:18:00
字节跳动宣布豆包大模型开启对外服务
...2024春季火山引擎Force原动力大会上,字节跳动正式宣布其豆包大模型开启对外服务,并公布了其极具竞争力的定价策略
2024-05-15 17:44:00
字节跳动计划在欧洲设立AI研发中心,已开始招募大模型等领域技术人才
...自研的底层大模型“云雀”上线,随即推出AI对话产品“豆包”。今年5月,字节发布“豆包大模型”家族,发起价格战,号称“比行业便宜99.3%”。值得注意的是,字节跳动今年在AI领
2024-10-28 20:39:00
更多关于科技的资讯:
厦门网讯(厦门日报 佘峥)1月20日起,厦门大学思明校区访客预约入校方式改变,将采用“线上预约+摇号”形式。厦大保卫处近日发布消息
2026-01-18 08:43:00
河北日报讯(记者王璐丹)近日,平方公里阵列天文台(SKAO)官网发布消息,位于南非的平方公里阵列中频射电望远镜(SKA-Mid)首次成功获得干涉条纹
2026-01-18 07:54:00
人工智能如何赋能“安徽万物”?
大皖新闻讯 1月16日,《安徽省“人工智能+万物”应用行动方案》发布,到2030年,安徽“人工智能+万物”应用落地将超万个
2026-01-17 21:56:00
鲁网1月17日讯1月13日上午,普惠(临沂)投资服务有限公司考察组一行赴临沂市供应链金融协会开展学习交流活动。临沂市供应链金融协会会长
2026-01-17 14:47:00
1月16日,全球最大、起重量达2300吨的桥面吊机在河北省秦皇岛市一装备制造企业正式下线,标志着我国在大型桥梁施工装备领域又获重大突破
2026-01-17 15:44:00
2026天然苏打水市场趋势:健康化、场景化成主流 泉匠深耕多区域市场实现销量突破
随着健康消费理念的深度渗透,天然苏打水行业正迎来高质量发展的黄金期。据行业权威报告预测,2026年中国天然苏打水市场规模将突破260亿元
2026-01-17 15:58:00
开元云与广西大学人工智能学院达成战略合作,共建AI产教融合新高地
广西大学人工智能学院常务副院长张振荣、副院长赵志刚、陈燕教授等老师,出席双方产学研合作签约仪式。2026年1月15日 广西南宁
2026-01-17 15:58:00
数据接口安全风险监测国标正式发布!深信服深度参编
根据2025年12月2日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2025年第33号)
2026-01-17 16:00:00
近日,国网潢川县供电公司依托用电信息采集系统及“专变负载可视化”数据集,构建反向有功异常自动监测告警机制,实现非光伏用户反向用电异常精准识别处置
2026-01-17 16:00:00
新消费|万物皆可租!这届年轻人为何“能租就不买”?
租一台口袋相机只需30元一天专业优质的画质却可以让旅途回忆更生动用百来元就能配齐一整套露营装备花100元便能轻松满足整趟出国旅行的穿搭需要……如今越来越多的年轻人正通过“租赁”重新定义自己的消费方式近日
2026-01-17 16:54:00
冷暖省电双先锋!美的酷省电二代横扫抖音商城三榜冠军
2026刚开年,空调行业首款爆品已然出现——全新上市美的酷省电二代便凭硬核实力脱颖而出,强势斩获抖音商城智能空调爆款榜
2026-01-17 16:00:00
厦门钨业通过技术创新与人才创新,不断攻克行业技术难题,塑造发展新动能让“有色”更出色东南网1月17日讯 (福建日报记者 戴敏 李向娟)近日
2026-01-17 11:38:00
在漳州龙文区,智能机器人等一批前沿项目正在聚集,新质生产力蓬勃生长——“未来场景”来到家门口东南网1月17日讯 (福建日报报业集团记者 杨凌怡 通讯员 张小惠)广场前
2026-01-17 11:41:00
中国姚绣站上巴黎大展C位
1月15日至19日,非遗苏绣品牌姚绣(Yao Silk)再度亮相巴黎M&O展,成为本届展会Fine Craft(精品工艺)展区唯一中国品牌
2026-01-17 09:40:00
民大学子全国“摘金” AI巧解垃圾分类与楼宇管理难题
荆楚网(湖北日报网)讯(记者林杉 许文秀 通讯员陈韶月 张祎晗)面对垃圾分类的效率瓶颈,人工智能与机械设计如何给出更优解
2026-01-17 10:36:00