谷歌推出新AI模型MusicLM，可从文本和图像中生成高保真音乐

新知榜官方账号

2023-08-30 22:11:01

谷歌推出新AI模型MusicLM，可从文本和图像中生成高保真音乐

在生成式AI模型的赛道上，谷歌正一路“狂飙”。继文字生成AI模型Wordcraft、视频生成工具ImagenVideo之后，谷歌将生成式AI的应用场景扩展到了音乐圈。当地时间1月27日，谷歌发布了新的AI模型——MusicLM，该模型可以从文本甚至图像中生成高保真音乐，也就是说可以把一段文字、一幅画转化为歌曲，且曲风多样。

MusicLM具备强大的辅助功能，可以规定具体的乐器、地点、流派、年代、音乐家演奏水平等，对生成的音乐质量进行调整，从而让一段曲子幻化出多个版本。MusicLM并非第一个生成歌曲的AI模型，同类型产品包括Riffusion、DanceDiffusion等，谷歌自己也发布过AudioML，时下最热门的聊天机器人“ChatGPT”的研发者OpenAI则推出过Jukebox。MusicLM有何独到之处？它其实是一个分层的序列到序列（Sequence-to-Sequence）模型。

MusicLM结合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型，可谓集大成者。其中，AudioLM模型可视作MusicLM的前身，MusicLM就是利用了AudioLM的多阶段自回归建模作为生成条件，可以通过文本描述，以24kHz的频率生成音乐，并在几分钟内保持这个频率。相较而言，MusicLM的训练数据更多。研究团队引入了首个专门为文本-音乐生成任务评估数据MusicCaps来解决任务缺乏评估数据的问题。MusicCaps由专业人士共建，涵盖5500个音乐-文本对。基于此，谷歌用280000小时的音乐数据集训练出了MusicLM。

MusicLM在音频质量和对文本描述的遵守方面都优于以前的模型。不过，MusicLM也有着所有生成式AI共同的风险——技术不完善、素材侵权、道德争议等。对于技术问题，比方说当要求MusicLM生成人声时，技术上可行，但效果不佳，歌词乱七八糟、意义不明的情况时有发生。MusicLM也会“偷懒”——起生成的音乐中，约有1%直接从训练集的歌曲中复制。另外，由AI系统生成的音乐到底算不算原创作品？可以受到版权保护吗？能不能和“人造音乐”同台竞技？相关争议始终未有一致见解。

谷歌发布的论文中也提到，该模型有盗用创意内容的潜在风险。需要在未来开展更多工作来应对这些与音乐生成相关的风险。

本页网址：https://www.xinzhibang.net/article_detail-10619.html

寻求报道，请

关键词

谷歌 AI模型 MusicLM 生成式AI 音乐生成

分享至微信：

相关工具

Clipchamp AI旁白生成器

Clipchamp的文字转语音生成器

Audo Studio

AI音频清洗工具（噪音消除、声音平衡、音量调节）

Uberduck

开源的AI语音生成社区，5000多种不同的声音

幻舟AI

一站式AI影视创作平台

悦音配音

AI智能在线配音语音合成工具

Play.ht

超真实在线AI语音生成

英语口语中常用的警告表达

英语口语中常用的警告表达在紧急情况下，能够快速有效地表达警告至关重要。下面是英语口语中常用的警告表达：Freeze!Duck!Hand up!Don't move!You listen to me!Get down!Halt!Move on!Let go!Run for your lives!Sto

分类标签英语口语警告紧急情况

12-01 16:27

看美剧学英语：Cutitout(住手)

看美剧学英语：Cutitout(住手)学习英语不是指你懂多少中文，而是看你能用英语说多少。要养成看美剧时使用英语的习惯和能力，多给自己把学过的英语用起来的机会和锻炼。当你说Cutitout时，意思是停止做或说令人讨厌或冒犯的事情。同时，To cut it out也可以表示停止做某事。学习英语应该是让

分类标签学英语Cutitout停止

12-01 16:26

CutMix&Mixup详解与代码实战

本文分享自华为云社区《CutMix&Mixup详解与代码实战-云社区-华为云》，作者：李长安。引言最近在回顾之前学到的知识，看到了数据增强部分，对于CutMix以及Mixup这两种数据增强方式发现理解不是很到位，所以这里写了一个项目再去好好看这两种数据增强方式。......（省略部分内容）.....

分类标签 CutMixMixup数据增强

12-01 16:25

Unit 4 Words and Expressions

Unit 4 Words and ExpressionsUnit 4 of the English textbook features various vocabulary words and expressions. These words and expressions are importan

分类标签 allowwrongmidnightguessdealgetonwithrelationcommunicationarguecloudelderinsteadwhatevernervousofferpropersecondlycommunicateexplainclearcopyreturnanymorememberpressurecompeteopinionskilltypicalfootballcutoutquickcontinue

12-01 16:24

关于理发的正确表达方式及cut的多重含义

正确表达请人理发的方式Jerry is going to the barber’s shop to have his hair cut. 因为理发是由别人（理发师）来理，故表达“请人理发”时，应用 have one’s hair cut。cut的多重含义1. cut in (on sb/sth) 打

分类标签理发表达方式cut含义

12-01 16:23

Adobe推出第二代FireFly绘图生成大模型，生图更易用更精美

Adobe推出第二代FireFly绘图生成大模型，生图更易用更精美北京时间10月11日凌晨，知名视觉设计工具大厂Adobe对外发布AdobeFirefly创意生成式AI模型系列中的三个主要新模型：AdobeFireflyImage2(萤火虫二代图片模型)、AdobeFireflyVectorMode

分类标签 AdobeFireFlyAI模型

11-24 02:14

治愈系风景：手机壁纸+屏保

治愈系风景：手机壁纸+屏保在忙碌的生活中，时常会感到疲惫和压力。这时，一张美丽的风景壁纸或屏保可以让我们心情愉悦，放松身心。本文介绍了一些治愈系风景的手机壁纸和屏保，希望能给大家带来一些舒适和愉悦。AI作品展示以下是一些AI绘画作品，它们都展现了美丽的风景，可以作为手机壁纸和屏保使用。治愈系风景：手

分类标签治愈系风景手机壁纸屏保

11-22 02:20

科大讯飞发布讯飞智能录音笔SR301青春版

科大讯飞发布讯飞智能录音笔SR301青春版9月10日，科大讯飞在北京正式发布讯飞智能录音笔SR301青春版新品。这款智能录音笔搭载了科大讯飞的AI语音转写引擎，具备语音秒转文字、中英文边录边译、重点标记、语音搜索、多平台同步等功能，售价999元。讯飞智能录音笔SR301青春版的转写引擎采用基于深度全

分类标签科大讯飞讯飞智能录音笔SR301青春版

11-11 22:14

科大讯飞AI大模型

科大讯飞AI大模型讯飞星火认知大模型是科大讯飞集团于2023年5月6日推出的新一代认知大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化，实现从提出、规划到解决问题的全流程闭环。2023年8月15日，讯飞星火认知大模型V2.0正式发布，7大核

分类标签科大讯飞AI大模型讯飞星火

11-11 22:13

如何用配音软件给视频配音？

如何用配音软件给视频配音？配音是一项有趣的工作，它可以让你在视频中扮演一个角色，为你的视频增添更多的生命力。但是，如果你没有接受过专业的配音训练，那么要给自己的视频配音就会变得有些困难。下面，我将为大家介绍三种用配音软件给视频配音的方法。方法一、使用“熊猫宝库”去配音熊猫宝库是一款声音特别真实的配音

分类标签配音软件视频配音熊猫宝库讯飞智作大漠传音

11-10 08:36