• 我的订阅
  • 科技

科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力

类别:科技 发布时间:2024-04-09 10:25:00 来源:DeepTech深科技

“同行们认为我们用大模型把音乐理解和生成结合在一起的想法比较新颖,论文也是多模态大模型领域的先期工作之一。

并且,除了大模型本身,我们提出的针对模型训练的数据集制作流程和整理的数据集,对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研究员表示。

科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力

图丨刘山松(来源:刘山松)

近期,他所在的腾讯 ARC Lab 团队与新加坡国立大学 Sun Chenshuo 助理教授课题组联合开发了一种多模态音乐理解与生成大模型 M2Ugen,能够满足用户对音乐理解和生成的需求,填补了多模态大模型在音乐领域的空白。

具体来说,该模型不仅可以理解音乐,还能在此基础上生成音乐。

前者指的是不但能对输入的音乐文件进行描述性的注解,而且可以回答用户与输入音乐文件相关的问题,比如音乐中包含哪些乐器等。

后者指的是不仅可以根据用户指令生成音乐,比如生成一段吉他弹奏的音乐,还能根据用户输入的图像或视频生成音乐。

科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力

图丨通过 M2Ugen 大模型进行多模态音乐理解和生成(来源:arXiv)

近日,相关论文以《M2Ugen:借助大型语言模型的力量进行多模态音乐理解和生成》(M2Ugen: Multi-modal Music Understanding and Generation with the Power of Large Language Models)为题在预印本平台 arXiv 上发表[1]。

刘山松和新加坡国立大学阿廷·萨克克尔·侯赛因(Atin Sakkeer Hussain)是第一作者,刘山松和 Sun Chenshuo、腾讯 ARC Lab 单瀛担任共同通讯作者。

科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力

图丨相关论文(来源:arXiv)

当前,大语言模型领域正在蓬勃发展。该领域的从业者或利用它强大的推理能力,理解文本、图像等模态;或通过它理解人类意图,并生成图像、音乐等用户需要的内容。

然而,过去大多数基于大语言模型的研究仍然侧重于理解层面,只有少量将理解和生成结合起来的相关研究。

但具体到实际应用场景,用户对于理解和生成的需求往往是交织存在的。

例如,每到年末,许多员工都需要制作年终总结 PPT。如果想借助大语言模型完成这项工作,那么它不仅要具有理解能力,以便用户从中获得符合用户想法的 PPT 模版风格,还要拥有生成文字和插图的能力。

因此,理解和生成能力有必要被融合到同一款模型中。

就该成果而言,该团队为何选择将音乐作为研究的切入点?

据刘山松介绍,他在读博期间就从事音频研究,对音乐有着较为浓厚的兴趣。工作以后又发现许多用户都有配乐的实际需求。

“比如,视频制作者要想快速积累粉丝,就要制作出一个爆款视频引流。其中,选择合适的配乐非常重要。

不过,音乐对艺术鉴赏水平有一定要求,那些普通用户在选择时往往面临困难。此时就需要有一个能够帮助他们选择合适配乐,并提高创作效率的小助手。”刘山松表示。

另外,值得一提的是,该成果也是该课题组在前序研究 MU-LLaMA[2]基础上的延续。据了解,后者主要集中于单一的音乐理解任务,而 M2Ugen 则是在音乐理解的基础上,增加由多模态信息引导的音乐生成能力,让模型不仅仅可以理解音乐,也能够创作音乐。

“我们在 2023 年 9 月完成 MU-LLaMA 的投稿后,就开始了对 M2Ugen 的研究。”刘山松表示。

在调研和确定研究现状和研究目标之后,研究人员先选用 MERT、ViT 和 ViViT 这三个特征处理器,来分别处理音乐、图像和视频输入。

接着,将编码器的输出引入所选用的 LLaMA2 开源大模型,让其能够理解、处理多模态的输入,进而为下游任务做决策。

然后,再将理解和生成任务巧妙地结合在同一个大模型中。

最后,通过探索 AudioLDM 2 和 MusicGen 两款模型的使用,让模型得以具备生成音乐的能力。

在完成模型架构设计的基础上,他们搜集了目前市场上可以找到的所有开放版权音乐,并利用 MU-LLaMA 和一些视觉基础模型来生成文本/图像/视频到音乐的多模态数据集,从而助力 M2Ugen 模型的训练。

需要说明的是,拥有更多优质的开放数据,是发展生成式 AI 的关键。

“如果未来我们能够与更多专业机构合作,得到更多高质量的音乐训练数据,并解决版权和标注数据质量的问题,就能完成对该模型性能和表现的更进一步迭代。”Sun Chenshuo 表示。

在后续研究中,他们将继续迭代优化模型性能,提升模型泛化性,以更好地适应国内用户的需求。

参考资料:

1.S., Liu, A., Hussain.et al. M2Ugen: Multi-modal Music Understanding and Generation with the Power of Large Language Models. arXiv:2311.11255. https://doi.org/10.48550/arXiv.2311.11255

2. S., Liu, A., Hussain.et al. Music Understanding LLaMA:Advancing Text-To-Music Generation with Question Answering And Captioning. arXiv:2308.11276v1. https://arxiv.org/abs/2308.11276

运营/排版:何晨龙

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-09 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

AI能否开启音乐创作与音乐治疗的新篇章?
...系——它从大脑中产生,也影响着大脑。由此,几十年来科学家们也试图通过脑电波制作音乐。1965年,世界上第一首脑波音乐发布。它通过放大物理信号,组织几个乐器生成音乐片段。如今随
2023-07-24 17:00:00
“AI孙燕姿”们能否唤醒植物人?天桥脑科学研究院与网易云音乐举办AI音乐与脑科学论坛|AI For Brain Science
...系——它从大脑中产生,也影响着大脑。由此,几十年来科学家们也试图通过脑电波制作音乐。1965年,世界上第一首脑波音乐发布。它通过放大物理信号,组织几个乐器生成音乐片段。如今随
2023-07-21 22:00:00
4000亿参数,国产大模型硬刚Llama 3?|钛媒体AGI
...2024年迎来基础大模型的关键之年早在1956年夏天,计算机科学家约翰·麦卡锡(John McCarthy)等人在具有传奇色彩的“达特茅斯会议”上创造“人工智能”这个术语
2024-04-19 16:00:00
视频 | 用AI创作歌曲是种什么体验?每个人都能有自己的“专属歌曲”
...助力人类更卓越的艺术创造和行业发展。”讯飞音乐首席科学家江源,分享了现阶段AI技术与音乐融合的新成果和未来方向。“讯飞星火认知大模型”。受访者供图“近年来,不断有新的科技概念
2023-09-15 21:48:00
紧握根技术竞速大模型
...投喂,才能逐渐让模型理解汉语的规律。”商汤科技首席科学家王晓刚说。语言类大模型不是唯一形态,多种通用大模型正在持续拓展应用场景。科技部新一代人工智能发展研究中心等机构发布的《
2023-06-19 09:03:00
科技赋能,讯飞音乐探寻“共声”力量
...委员兼秘书长刘阳,与讯飞音乐高级合伙人胡浩以及首席科学家江源共同登台,携手点亮“共声”计划。一束束光波犹如夜空中的璀璨繁星,播撒出生机勃发的“共声”土壤。“共声计划”旨在成为
2023-09-15 21:30:00
本周(4.8-4.14)AI界发生了什么?
...,曾任谷歌大脑深度学习项目创始人兼负责人、百度首席科学家、斯坦福大学人工智能实验室主任。OpenAI解雇两名核心团队成员4月12日
2024-04-14 20:33:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
...其足够“聪明”、“通人性”的关键原因之一。开源社区科学家助力 打造更懂中文的对话式AI产品“天工”在开发过程中也得到了开源社区上百位AI科学家助力。昆仑万维CEO方汉1994
2023-04-17 15:42:00
趣丸科技推出天谱乐大模型,可一键让视频开口唱歌
...inaJoy)在上海新国际博览中心开幕。由趣丸科技打造的多模态配乐大模型“天谱乐”惊喜亮相,成为本届大会最具创新的展品之一。天谱乐大模型不仅支持文生音乐、音频生音乐,还首创图
2024-07-31 19:45:00
更多关于科技的资讯:
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00
2025年全国大学生计算机大赛总决赛落幕 西工大获奖数量质量再创新高
近日,2025年全国大学生计算机系统能力大赛各赛道总决赛圆满落幕。本届大赛吸引了来自清华大学、北京大学、复旦大学、华中科技大学
2025-10-07 11:40:00
太划算!遵义多重补贴点燃消费热情
多彩贵州网讯国庆中秋“双节”同至,遵义市推出的“悦·遵义‘双节’欢乐购”促消费活动覆盖整个长假,其中“焕新过节·乐享生活”家电家居促销活动形式丰富
2025-10-07 14:51:00
□南京日报/紫金山新闻记者 张安琪9月23日,2025南京金秋经贸洽谈会开幕式上,一批全球首个、国内首批、性能全球最高的科技成果密集亮相
2025-10-06 09:49:00
国庆中秋长假期间,新能源汽车已成为众多家庭出游的重要选择。为进一步破解高速服务区“充电难、排队久”的现实困境,山西交控集团坚持“科技创新+服务升级”双轮驱动
2025-10-06 18:01:00
邮储信用卡气球雨惊喜派对即将空降青岛李沧万达,国庆中秋邀您共启幸运之旅!
鲁网9月30日讯2025年国庆、中秋双节同庆之际,为回馈广大市民与持卡人长期以来的支持,邮储银行青岛分行将于10月1日-8日
2025-10-06 14:11:00
□南京日报/紫金山新闻记者 于洁尘 通讯员陈天骄“干我们这行的,哪有节假日?越是假期越要忙。”10月5日一大早,28岁的陈潇离开南京
2025-10-06 09:48:00
节日我在岗丨十堰高周波:抓创新赶订单 全力冲刺年度目标
十堰广电讯(全媒体记者 陈林)在国庆中秋假期,位于十堰经济开发区的十堰高周波科工贸有限公司抓创新赶订单,全力冲刺年度目标
2025-10-05 20:21:00
节日我在岗丨艾斯卓智能科技:节日不休 赶制订单
十堰广电讯(全媒体记者 耿吉国)放假不放松,生产不停工。国庆中秋长假,我市各生产企业铆足干劲抓生产、赶订单,奋力冲刺年度目标任务
2025-10-05 20:21:00
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00