MusicLM:基于文本描述生成高保真音乐的AI音乐生成器

新知榜官方账号

2023-07-03 14:00:28

简介

MusicLM是谷歌于2023年1月推出的一种AI音乐生成器,能够基于文本描述生成高保真的音乐。本文介绍了AI音乐生成的历史、现状和发展方向,并深入分析了MusicLM的原理和应用。

历史回顾

AI生成音乐的历史悠久,早在上世纪90年代,音乐学教授David Koepp写出了第一个程序——EMI,能够谱出协奏曲、合唱曲、交响乐和歌剧。2016年,三位音乐家企业家创立AIVA technology,利用AI创作音乐。AIVA能够为电影、广告、游戏、预告片和电视节目创作情感配乐。

最近的RIFFUSION使用AI图像生成引擎Stable Diffusion将文本提示转换为频谱图,然后再转换为音乐。OpenAI在2020年发布了一款名为“Jukebox”的AI音乐生成器。通过输入流派、艺术家和歌词,Jukebox能够输出从头开始制作的新音乐样本。

技术现状

目前,各种生成模型的最先进技术主要由基于Transformer的自回归模型或基于U-Net的扩散模型所主导。尽管生成具有长期一致性的高质量音频是一个挑战,但最近有一系列方法解决了这个问题。

MusicLM的原理和应用

MusicLM主要分为两个部分:首先,它接受一系列音频标记,并将它们映射到字幕中的语义标记进行训练。第二部分接收用户字幕和/或输入音频,并生成声学标记。MusicLM可以生成符合场景的音乐,也可以建立在现有的旋律之上,同时还具有故事模式,能够将几种描述拼接在一起,创造出唤起特定情感的配乐。

发展方向和风险

未来,AI研究人员将继续改进音乐生成技术,直到每个人都能通过描述创造出任何风格的工作室质量的音乐。但AI音乐生成技术也存在一些风险,例如生成的样本将反映训练数据中存在的偏差,这就提出了对训练数据中代表性不足的文化进行音乐生成的一些问题,同时也引发了对文化挪用的担忧。

本页网址:https://www.xinzhibang.net/article_detail-4920.html

寻求报道,请 点击这里 微信扫码咨询

关键词

MusicLM AI音乐生成器 文本描述

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯