我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

类别：科技发布时间：2024-04-09 10:25:00 来源：DeepTech深科技

“同行们认为我们用大模型把音乐理解和生成结合在一起的想法比较新颖，论文也是多模态大模型领域的先期工作之一。

并且，除了大模型本身，我们提出的针对模型训练的数据集制作流程和整理的数据集，对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研究员表示。

图丨刘山松（来源：刘山松）

近期，他所在的腾讯 ARC Lab 团队与新加坡国立大学 Sun Chenshuo 助理教授课题组联合开发了一种多模态音乐理解与生成大模型 M2Ugen，能够满足用户对音乐理解和生成的需求，填补了多模态大模型在音乐领域的空白。

具体来说，该模型不仅可以理解音乐，还能在此基础上生成音乐。

前者指的是不但能对输入的音乐文件进行描述性的注解，而且可以回答用户与输入音乐文件相关的问题，比如音乐中包含哪些乐器等。

后者指的是不仅可以根据用户指令生成音乐，比如生成一段吉他弹奏的音乐，还能根据用户输入的图像或视频生成音乐。

图丨通过 M2Ugen 大模型进行多模态音乐理解和生成（来源：arXiv）

近日，相关论文以《M2Ugen：借助大型语言模型的力量进行多模态音乐理解和生成》（M2Ugen: Multi-modal Music Understanding and Generation with the Power of Large Language Models）为题在预印本平台 arXiv 上发表[1]。

刘山松和新加坡国立大学阿廷·萨克克尔·侯赛因（Atin Sakkeer Hussain）是第一作者，刘山松和 Sun Chenshuo、腾讯 ARC Lab 单瀛担任共同通讯作者。

图丨相关论文（来源：arXiv）

当前，大语言模型领域正在蓬勃发展。该领域的从业者或利用它强大的推理能力，理解文本、图像等模态；或通过它理解人类意图，并生成图像、音乐等用户需要的内容。

然而，过去大多数基于大语言模型的研究仍然侧重于理解层面，只有少量将理解和生成结合起来的相关研究。

但具体到实际应用场景，用户对于理解和生成的需求往往是交织存在的。

例如，每到年末，许多员工都需要制作年终总结 PPT。如果想借助大语言模型完成这项工作，那么它不仅要具有理解能力，以便用户从中获得符合用户想法的 PPT 模版风格，还要拥有生成文字和插图的能力。

因此，理解和生成能力有必要被融合到同一款模型中。

就该成果而言，该团队为何选择将音乐作为研究的切入点？

据刘山松介绍，他在读博期间就从事音频研究，对音乐有着较为浓厚的兴趣。工作以后又发现许多用户都有配乐的实际需求。

“比如，视频制作者要想快速积累粉丝，就要制作出一个爆款视频引流。其中，选择合适的配乐非常重要。

不过，音乐对艺术鉴赏水平有一定要求，那些普通用户在选择时往往面临困难。此时就需要有一个能够帮助他们选择合适配乐，并提高创作效率的小助手。”刘山松表示。

另外，值得一提的是，该成果也是该课题组在前序研究 MU-LLaMA[2]基础上的延续。据了解，后者主要集中于单一的音乐理解任务，而 M2Ugen 则是在音乐理解的基础上，增加由多模态信息引导的音乐生成能力，让模型不仅仅可以理解音乐，也能够创作音乐。

“我们在 2023 年 9 月完成 MU-LLaMA 的投稿后，就开始了对 M2Ugen 的研究。”刘山松表示。

在调研和确定研究现状和研究目标之后，研究人员先选用 MERT、ViT 和 ViViT 这三个特征处理器，来分别处理音乐、图像和视频输入。

接着，将编码器的输出引入所选用的 LLaMA2 开源大模型，让其能够理解、处理多模态的输入，进而为下游任务做决策。

然后，再将理解和生成任务巧妙地结合在同一个大模型中。

最后，通过探索 AudioLDM 2 和 MusicGen 两款模型的使用，让模型得以具备生成音乐的能力。

在完成模型架构设计的基础上，他们搜集了目前市场上可以找到的所有开放版权音乐，并利用 MU-LLaMA 和一些视觉基础模型来生成文本/图像/视频到音乐的多模态数据集，从而助力 M2Ugen 模型的训练。

需要说明的是，拥有更多优质的开放数据，是发展生成式 AI 的关键。

“如果未来我们能够与更多专业机构合作，得到更多高质量的音乐训练数据，并解决版权和标注数据质量的问题，就能完成对该模型性能和表现的更进一步迭代。”Sun Chenshuo 表示。

在后续研究中，他们将继续迭代优化模型性能，提升模型泛化性，以更好地适应国内用户的需求。

参考资料：

1.S., Liu, A., Hussain.et al. M2Ugen: Multi-modal Music Understanding and Generation with the Power of Large Language Models. arXiv:2311.11255. https://doi.org/10.48550/arXiv.2311.11255

2. S., Liu, A., Hussain.et al. Music Understanding LLaMA：Advancing Text-To-Music Generation with Question Answering And Captioning. arXiv:2308.11276v1. https://arxiv.org/abs/2308.11276

运营/排版：何晨龙

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-04-09 11:45:08

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模态,音乐,科学家,生成,模型,创作的资讯：

AI能否开启音乐创作与音乐治疗的新篇章？

...系——它从大脑中产生，也影响着大脑。由此，几十年来科学家们也试图通过脑电波制作音乐。1965年，世界上第一首脑波音乐发布。它通过放大物理信号，组织几个乐器生成音乐片段。如今随

2023-07-24 17:00:00

“AI孙燕姿”们能否唤醒植物人？天桥脑科学研究院与网易云音乐

2023-07-21 22:00:00

4000亿参数，国产大模型硬刚Llama 3？｜钛媒体AGI

...2024年迎来基础大模型的关键之年早在1956年夏天，计算机科学家约翰·麦卡锡（John McCarthy）等人在具有传奇色彩的“达特茅斯会议”上创造“人工智能”这个术语

2024-04-19 16:00:00

视频 | 用AI创作歌曲是种什么体验？每个人都能有自己的“专

...助力人类更卓越的艺术创造和行业发展。”讯飞音乐首席科学家江源，分享了现阶段AI技术与音乐融合的新成果和未来方向。“讯飞星火认知大模型”。受访者供图“近年来，不断有新的科技概念

2023-09-15 21:48:00

紧握根技术竞速大模型

...投喂，才能逐渐让模型理解汉语的规律。”商汤科技首席科学家王晓刚说。语言类大模型不是唯一形态，多种通用大模型正在持续拓展应用场景。科技部新一代人工智能发展研究中心等机构发布的《

2023-06-19 09:03:00

科技赋能，讯飞音乐探寻“共声”力量

...委员兼秘书长刘阳，与讯飞音乐高级合伙人胡浩以及首席科学家江源共同登台，携手点亮“共声”计划。一束束光波犹如夜空中的璀璨繁星，播撒出生机勃发的“共声”土壤。“共声计划”旨在成为

2023-09-15 21:30:00

本周（4.8-4.14）AI界发生了什么？

...，曾任谷歌大脑深度学习项目创始人兼负责人、百度首席科学家、斯坦福大学人工智能实验室主任。OpenAI解雇两名核心团队成员4月12日

2024-04-14 20:33:00

昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试

...其足够“聪明”、“通人性”的关键原因之一。开源社区科学家助力打造更懂中文的对话式AI产品“天工”在开发过程中也得到了开源社区上百位AI科学家助力。昆仑万维CEO方汉1994

2023-04-17 15:42:00

趣丸科技推出天谱乐大模型，可一键让视频开口唱歌

...inaJoy）在上海新国际博览中心开幕。由趣丸科技打造的多模态配乐大模型“天谱乐”惊喜亮相，成为本届大会最具创新的展品之一。天谱乐大模型不仅支持文生音乐、音频生音乐，还首创图

2024-07-31 19:45:00

更多关于科技的资讯：

2025青岛虚拟现实创新大会在即，乐相科技分享产业洞察

鲁网10月28日讯随着虚拟现实技术的蓬勃发展，行业年度盛会——2025青岛虚拟现实创新大会即将在崂山区启幕。作为国内最早布局虚拟现实产业的地区之一

2025-10-28 14:03:00

物生物RELEA联手宫里的世界打造首个联名系列，惊艳深圳礼品

随着第33届中国（深圳）国际礼品及家居用品展览会的大幕徐徐拉开，全球礼品与家居行业的目光再度聚焦于这座充满创新活力的城市

2025-10-28 14:21:00

京东工业与铜陵化学工业集团签署战略合作共筑化工行业数智供应

10月27日，铜陵化学工业集团有限公司（以下简称“铜化集团”）与北京京东数智工业科技有限公司（以下简称“京东工业”）正式签署战略合作协议

2025-10-28 14:25:00

广州两家“黑珍珠”餐厅入驻大众点评品质外卖，上线专属“主厨推

这届打工人有福了，午休时间点外卖就能尝到“黑珍珠”餐厅的品质美味。10月28日，广州炳胜公馆（珠江新城店）、炳胜私厨（中达旗舰店）两家2025“黑珍珠”上榜餐厅正式入驻大众点评“品质外卖”

2025-10-28 14:25:00

XREAL与广和通达成战略合作，共启AI眼镜产业新纪元

10月27日，广和通与行业头部AR眼镜科技公司XREAL宣布达成战略合作，共同推动消费级AI眼镜产业迈向新纪元。双方将以领先的技术实力与制造能力

2025-10-28 14:51:00

租车像开盲盒？神州租车品质服务月3倍赔付买断“洁净焦虑”

近日，国内规模最大的直营租车平台神州租车正式推出品质服务月“脏必赔”服务保障机制，宣布自2025年10月24日起，用户如在取车后发现车辆清洁不达标

2025-10-28 16:52:00

超80%宁波上市公司用钉钉，钉钉AI助力宁波走向硬核智造

10月28日，以“AI时代的工作方式”为主题的钉峰会在浙江宁波举办。本次峰会由阿里巴巴旗下AI办公平台钉钉主办，吸引了来自制造

2025-10-28 16:57:00

支付宝带31个境外钱包来华消费超400个友好商圈提前迎客

“我们很高兴与蚂蚁国际、与Alipay+合作，这不仅便利乌兹别克斯坦用户游全球、看中国，相信更是中乌科技合作的典范。”乌兹别克斯坦二维码网络 HUMO的董事会第一副主席马克萨德·穆希特迪诺夫说

2025-10-28 17:15:00

NMN哪个牌子效果好？十大高口碑NMN产品推荐，国产进口口服

2025国家级新刊《抗衰老医学专刊》首刊定调：NAD+前体补充剂已成全民抗衰刚需，其中NMN机制明确、临床数据扎实，稳居市场C位

2025-10-28 17:15:00

2025年10月板材十大品牌年度实力回顾环保品质与贴心服务

2025年第四季度已经过半，回顾全年板材市场销量和用户体验均有不错表现的前十品牌，板材作为家居装修和建筑工程的基础材料

2025-10-28 17:16:00

2025年度GEO优化服务商权威榜单：行业标杆推荐与合规选型

一、GEO 优化核心简介GEO（生成式引擎优化）是 AI 搜索时代的核心流量技术，通过适配豆包、DeepSeek 等主流 AI 平台算法

2025-10-28 17:18:00

官方：燃油营运车上线“车险好投保”平台，超110万辆新能源车

中新经纬10月28日电国家金融监管总局网站28日消息，近年来，国家金融监管总局坚持以人民为中心的发展思想，引导财险业积极履行社会责任

2025-10-28 17:30:00

“空嫂”专项招聘，企业用人观的温暖转身

10月27日，“春秋航空开招已婚已育空嫂”话题登顶热搜，引发广泛关注。一项看似寻常的专项招聘，因“已婚已育、年龄放宽至40岁”等条件

2025-10-28 17:33:00

向“新”而行聚力发展河北工业经济稳中提质

在承德围场滴水湖光伏电站，无人机正在进行智能巡检。河北空天控股公司供图钢铁工厂添了大模型，“AI+钢铁”锻造新质生产力

2025-10-28 17:39:00

2025中国网络视听金橙指数发布

中国青年报客户端讯（中青报·中青网记者沈杰群）10月27日，2025中国网络视听金橙指数发布大会在北京举行。会上发布了2025中国网络视听金橙指数年度微短剧

2025-10-28 17:58:00

头条订阅服务

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力