Meta发布AI声音生成模型Audiobox:让音频生成更容易

新知榜官方账号

2023-12-08 22:42:11

Meta发布AI声音生成模型Audiobox:让音频生成更容易

IT之家12月4日消息,Meta日前推出了一款AI声音生成模型Audiobox,能够同时接收语音及文字输入,用户可同时使用语音及文字描述,让这款模型生成所需的音频。据悉,这款模型基于Meta今年6月推出的VoiceboxAI模型,据称Audiobox能生成各种环境音、自然对话语音,并整合了音频生成和编辑能力,以便于用户自由生成自己所需的音频。

Meta介绍称,生成高品质音频需要有大量音频库及深厚的领域知识,但大众难以获得这些资源,而该公司推出这个模型旨在降低声音生成门槛,让任何人都更容易制作视频、游戏等应用场景的音效。

IT之家发现,这款Audiobox模型基于Voicebox的“引导声音”机制,以便于生成目标音频,并配合“流量比对(flow-matching)”扩散模型生成方法,以实现“声音填充(audioinfilling)”功能,从而生成多层次的音频。Meta测试生成带有雷暴声的下雨音频,并输入一系列提示句进行演示,例如“流水声伴随鸟鸣”、“以高音调快节奏说话的年轻女性”等;同时测试了同时输入人声及文字提示,以生成带有情绪(“哀痛而缓慢”)并拥有背景音(身处教堂)的语音。

Meta声称,Audiobox在音质及“生成内容的准确度”顺利击败了AudioLDM2、VoiceLDM及TANGO,超越了现有最佳的音频生成模型。目前Audiobox已经开放向特定研究人员及学术界试用,以供测试模型品质及安全性,Meta声称,他们计划“再过几周将社会全面公开该模型”。

本页网址:https://www.xinzhibang.net/article_detail-22337.html

寻求报道,请 点击这里 微信扫码咨询

关键词

Meta Audiobox AI声音生成 音频生成 音频库

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯