• 我的订阅
  • 科技

火爆全球的AI音频大模型,最新技术细节揭秘

类别:科技 发布时间:2024-07-25 09:22:00 来源:智东西

智东西7月24日消息,Satbility AI于7月19日在Arxiv上分享了Stable Audio Open的研究论文,公开了该模型背后的技术细节。

Stable Audio Open是StabilityAI于今年6月推出的开源文本转音频模型,可免费生成长达47秒的样本和音效,还可生成44.1kHz高质量立体声音频,并且能在消费级GPU上运行。除了免费、开源,该模型还注重保护创作者版权,在数据训练中尽力避免伦理道德问题。

论文透露,Stable Audio Open是StabilityAI于今年3月推出的商用Stable Audio 2的变体模型,整体架构保持一致,但在训练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。

论文地址:https://arxiv.org/html/2407.14358v1

一、3个关键架构提供支持,免费生成44.1kHz高质量立体声短音频

Stable Audio Open引入了一种文本转音频模型,有3个主要架构:

    自动编码器:将波形数据压缩到可管理的序列长度; 基于T5的文本嵌入; 基于transformer的扩散模型(DiT):在自动编码器的潜在空间中运行。

自动编码器是一种神经网络架构,由编码器和解码器组成,编码器将输入的数据压缩成一个较小的潜在空间表示,解码器则将这个潜在表示解压还原。Stable Audio Open中的自动编码器把音频波形压缩成一个较短的序列,以便后续处理。

T5(Text-to-Text Transfer Transformer)是一个由谷歌开发的自然语言处理模型,它可以将输入的文本转换为另一种文本表示。在Stable Audio Open中,T5模型将用户输入的文本转换成文本嵌入(text embedding),以便于将文本信息融入到音频生成过程中。

DiT(Diffusion Transformer)是一种扩散模型,在自动编码器的潜在空间中运行,对编码器压缩后的数据进行处理和优化,确保解码器能还原出连贯、高质量的音频。

火爆全球的AI音频大模型,最新技术细节揭秘

作为Stable Audio 2的变体模型,Stable Audio Open在训练数据的采用和部分架构上进行了调整。采取了完全不同的数据集,并且使用T5代替了CLAP(Contrastive Language-Audio Pretraining)。前者由谷歌开发,专注于文本数据,完成各种自然语言处理任务,而后者由OpenAI研发,即可处理语言数据,也可处理音频数据。

作为一个开源免费的模型,Stable Audio Open无法生成连贯完整的曲目,也不会针对完整的曲目、旋律或人声进行优化。

Stability AI称,Stable Audio Open专注于音频demo和音效制作,可免费生成最长47秒的44.1kHz高质量立体声音频。经过专业训练后,该模型非常适合创建鼓点、乐器重复乐段、环境音、拟音录音和其他用于音乐制作和声音设计的音频样本。

此次开源版本还有一个关键优势,即用户可以根据自己的自定义音频数据对模型进行微调,这样,用户就可以用自己的鼓声录音来训练模型,用自己的风格生成独特的节奏。

二、训练过程着重保护版权

在生成式AI快速发展的背景下,人们对音乐行业使用人工智能的争论日益激烈,特别是在版权问题上。Stability AI前音频副总裁Ed Newton-Rex于2023年底离职,理由是他不同意Stability AI在训练模型时使用受版权保护的音频,认为此举存违背伦理道德。他曾参与开发Stable Audio。

生成式AI的数据训练像是一个黑箱里进行,除了开发商,谁也不知道训练所使用的数据是否受版权保护。Newton-Rex说:“许多价值数十亿美元的科技公司在未经许可的情况下,利用创作者的作品训练生成式人工智能模型,然后使用这些模型生成新内容。”他在一封公开辞职信中表示,他不接受这种依靠侵犯创作者版权而牟利的行为。

Stability AI表示,为尊重创作者版权,Stable Audio Open使用的数据集来自Freesound和免费音乐档案(FMA),所有使用的录音均是CC(Creative Commons)许可下发布的音频录音。CC是一种版权许可机制,该机制允许创作者共享他们的作品,并规定他人如何使用这些作品。

为了确保避免使用任何受版权保护的材料,Stability AI称通过使用音频标记器识别Freesound中的音乐样本,并将识别出的样本被发送到Audible Magic的内容检测公司,以确保从数据集中删除潜在的受版权保护的音乐。

Stability AI表示:“这让我们能够创建一个开放的音频模型,同时又能充分尊重创作者的权利。”

开源、免费模型让文生音频更普及

Stable Audio Open的推出展示了Stability AI在文本转音频模型领域的创新和进步。虽然该模型在生成音频长度和连贯性上存在一定的限制,但其优点也显而易见。它能免费生成高质量的44.1kHz立体声音频,并且能在消费级GPU上运行,降低了文生音频的使用门槛。

同时,Stable Audio Open在开放音频生成技术的同时,也为版权保护树立了新标杆。在今后,随着技术的不断进步和道德规范的完善,Stable Audio Open有望在更多应用场景中发挥其潜力,推动音频生成技术的发展和普及。

目前,Stable Audio Open模型权重可在机器学习模型平台Hugging Face上获取。Stability AI鼓励声音设计师、音乐家、开发人员以及任何对音频感兴趣的人探索该模型的功能并提供反馈。

来源:Stability AI

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-25 12:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全面进化的骁龙,打响端侧AI时代的发令枪
...爆火,AIGC的发展不断提速,生成式AI一跃成为科技圈中最火爆的领域之一,这也开启了以AI为主的全新时代,但是现在来看以云端为主的生成式AI,难以消除的高成本、高时延等问题。
2023-10-27 10:12:00
抖音豆包火爆,视觉中国沾光录得8天5板
近日,抖音豆包概念席卷A股市场。12月12日,相关概念股持续活跃,截至收盘,省广集团、引力传媒、视觉中国等多股涨停。消息面上,12月10日,字节跳动旗下视频生成模型PixelDa
2024-12-13 09:47:00
AI正在改变物理世界!2024云栖大会开幕 AI硬科技集结 共创“无法计算的价值”
...务、人工智能平台和模型服务,全景式呈现AI时代云计算最新技术形态和产品进展。在计算馆,有一个展位人气异常火爆。不少观众在体验用无影云电脑玩最近爆火的《黑神话:悟空》。“之前如
2024-09-20 07:27:00
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...在互动平台表示,公司在Transformer架构方面积极跟踪业内最新技术,未来将根据技术研发和业务需求的实际情况,适时采用类似架构
2024-02-19 08:10:00
欧盟《人工智能法案》如何影响开源模型监管?
...某些条款将在今年内适用。值得注意的是,免费、开源的模型的确获得了《法案》中的某些豁免。但如果它们被认为构成“系统性风险“,开源并不能成为其免于遵守规定的理由,这表明更强大的开
2024-03-16 13:06:00
4000亿参数,国产大模型硬刚Llama 3?|钛媒体AGI
头图由天工AI生成随着中国加速研发 AI 大模型技术,追赶美国,如今已迎来新的节点。北京时间4月18日,Meta推出了新版开源大模型Llama 3
2024-04-19 16:00:00
规范深度合成技术中国走在全球前列(专家解读)
...提出的生成对抗网络(GANs)、2020年提出的生成式预训练模型(GPT-3),大幅提升了多媒体数据合成的逼真程度,推动了“人工智能生成内容”和“元宇宙”等一系列新型智能应用
2023-01-30 05:36:00
阿里千问APP上线万相2.6视频生成模型 国产AI加速迈向全球前沿
12月16日,阿里巴巴旗下千问APP正式上线最新视频生成模型“万相2.6”,并向所有用户免费开放。此举标志着我国在多模态大模型领域取得重要突破,国产AI技术正加速向全球领先水平迈
2025-12-17 16:48:00
与音乐行业同行 与数字时代共振 腾讯音乐娱乐集团亮相腾讯全球数字生态大会
...以AI科技提升音乐视听体验的天琴音乐室,带来了天琴大模型AIGC能力的展示,其通过大语言和视觉模型加速(MUSELight)
2023-09-12 08:47:00
更多关于科技的资讯:
第二届“科创·柳叶湖”合成生物制造创新创业大赛巅峰对决即将开锣!
第二届“科创·柳叶湖”合成生物制造创新创业大赛将于2026年1月15日至17日在湖南常德举行。本届大赛以“合创万物 智引未来”为主题
2026-01-07 17:00:00
高品质鱼油赛道再迎里程碑:新加坡Biowell小金星Plus获TGA认证
在消费者对营养品品质与真实功效日益关注的背景下,国际权威认证成为衡量产品力的重要标尺。近日,新加坡专业营养品牌Biowell迎来关键进展
2026-01-07 17:00:00
编织数据天网 守护卫星星河
——记寰宇卫星技术主管贾淋淋在卫星与地面之间,无形的数据洪流日夜奔涌,构筑起现代航天测控的生命线。而在这条关键通道的背后
2026-01-07 17:00:00
大庆油田采油一厂第九作业区新中310采油班面对油田数字化建设的深入推进,油水井报表管理正经历从传统纸质向智能数字化的关键转型
2026-01-07 17:02:00
二元魂与京东京造深度联动,共建 AI 潮玩全龄陪伴生态
近日,京东京造携手 JoyInside 全新推出4 款 AI 产品,精准覆盖全家不同生活场景的陪伴需求。此次上新阵容中
2026-01-07 17:02:00
美学舒适双在线,ROSE CASTLE 玫瑰城堡|打造能传家的奢侈品级婚鞋
婚礼当天,新娘的足下承载着远超一双鞋的物理重量。它是踏入人生新阶段的仪式感起点,是全天候优雅姿态的基石,也是婚礼记忆中最具象的情感信物之一
2026-01-07 17:02:00
河北新闻网讯(刘富伟)日前,工业和信息化部、国家药品监督管理局联合发布《2025年人工智能医疗器械创新任务揭榜挂帅入围名单》
2026-01-07 16:56:00
人体工学品牌MS官宣2025营收破亿,未来三年剑指十亿目标
12月30日,国内人体工学显示器支架品牌MS在年度工作总结会上宣布:2025年MS营收突破亿元大关,并确立了未来三年营收向十亿迈进的目标
2026-01-07 16:57:00
同样的预算,别买“电子垃圾”!阿尔法蛋词典笔,平价背后的专业与安全
平价词典笔就选阿尔法蛋吗?是的,这是明智之选。 在预算有限时,家长往往面临“廉价山寨”与“高价品牌”的两难。阿尔法蛋词典笔打破了这种困境
2026-01-07 16:58:00
Coosea酷赛智能的下一站:聚焦核心技术,剑指智能硬件百万台增量市场
在全球智能硬件市场持续扩张的浪潮中,酷赛智能科技股份有限公司(以下简称“Coosea酷赛智能”)正以行业引领者之姿,稳步推进其战略布局
2026-01-07 15:10:00
杜蒿坨数字时代,指尖轻点就能完成金融业务,银行网点正在经历“瘦身”。据国家金融监督管理总局金融许可证信息查询系统粗略统计
2026-01-07 15:27:00
从仓库到接驳点,无人配送车上路厦门首次在开放道路上开展自动驾驶配送测试东南网1月7日讯 (海峡导报记者 江小聪) 近日
2026-01-07 15:51:00
王志顺国家税务总局近日通报,2025年前11个月,税务部门共查处1818名包括明星网红在内的“双高”人员,查补税款高达15
2026-01-07 15:57:00
科技赋能健康,倍轻松携AI+中医创新亮相2026 CES,全球化战略再提速
当全球消费科技的目光聚焦于拉斯维加斯威尼斯人会展中心,中国健康科技领军企业倍轻松(股票代码:688793)以全新姿态登陆2026年国际消费电子展(CES)
2026-01-07 16:21:00
百镜大战再添新军 思问AI眼镜如何脱颖而出
2026年1月10日,大湾区深中通道西人工岛,吸引人们的不只是网红打卡地、超级工程,还将有一场人工智能的科技秀:思问AI眼镜
2026-01-07 16:22:00