谷歌推出新AI模型MusicLM,可从文本和图像中生成高保真音乐

新知榜官方账号

2023-08-30 22:11:01

谷歌推出新AI模型MusicLM,可从文本和图像中生成高保真音乐

在生成式AI模型的赛道上,谷歌正一路“狂飙”。继文字生成AI模型Wordcraft、视频生成工具ImagenVideo之后,谷歌将生成式AI的应用场景扩展到了音乐圈。当地时间1月27日,谷歌发布了新的AI模型——MusicLM,该模型可以从文本甚至图像中生成高保真音乐,也就是说可以把一段文字、一幅画转化为歌曲,且曲风多样。

MusicLM具备强大的辅助功能,可以规定具体的乐器、地点、流派、年代、音乐家演奏水平等,对生成的音乐质量进行调整,从而让一段曲子幻化出多个版本。MusicLM并非第一个生成歌曲的AI模型,同类型产品包括Riffusion、DanceDiffusion等,谷歌自己也发布过AudioML,时下最热门的聊天机器人“ChatGPT”的研发者OpenAI则推出过Jukebox。MusicLM有何独到之处?它其实是一个分层的序列到序列(Sequence-to-Sequence)模型。

MusicLM结合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型,可谓集大成者。其中,AudioLM模型可视作MusicLM的前身,MusicLM就是利用了AudioLM的多阶段自回归建模作为生成条件,可以通过文本描述,以24kHz的频率生成音乐,并在几分钟内保持这个频率。相较而言,MusicLM的训练数据更多。研究团队引入了首个专门为文本-音乐生成任务评估数据MusicCaps来解决任务缺乏评估数据的问题。MusicCaps由专业人士共建,涵盖5500个音乐-文本对。基于此,谷歌用280000小时的音乐数据集训练出了MusicLM。

MusicLM在音频质量和对文本描述的遵守方面都优于以前的模型。不过,MusicLM也有着所有生成式AI共同的风险——技术不完善、素材侵权、道德争议等。对于技术问题,比方说当要求MusicLM生成人声时,技术上可行,但效果不佳,歌词乱七八糟、意义不明的情况时有发生。MusicLM也会“偷懒”——起生成的音乐中,约有1%直接从训练集的歌曲中复制。另外,由AI系统生成的音乐到底算不算原创作品?可以受到版权保护吗?能不能和“人造音乐”同台竞技?相关争议始终未有一致见解。

谷歌发布的论文中也提到,该模型有盗用创意内容的潜在风险。需要在未来开展更多工作来应对这些与音乐生成相关的风险。

本页网址:https://www.xinzhibang.net/article_detail-10619.html

寻求报道,请 点击这里 微信扫码咨询

关键词

谷歌 AI模型 MusicLM 生成式AI 音乐生成

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯