微软发布小冰演唱模型的第五个版本,人工智能唱歌音质更接近真人

新知榜官方账号

2023-06-29 11:14:53

微软发布小冰演唱模型的第五个版本,人工智能唱歌音质更接近真人

人工智能语音在生活中已不稀奇,像车载导航、语音助手之类,我们很容易从“机器味”听出它们不是真人。而微软最新的人工智能语音则更进一步——它已经可以模拟人类唱歌,且在唱腔转换、气息等方面几乎真假难辨。16日下午的微软小冰人工智能创造媒体说明会上,微软发布了小冰演唱模型的第五个版本。该最新版本的演唱模型拥有十余个高质量声音,提升了人工智能在歌声演绎中的预测参数能力。具体而言,一是大幅度提高了人工智能演绎歌曲时的中气水平,二是改善了歌声唱腔转换的自然度,三是首次展示了戏腔训练成果。现场播放demo前,微软小冰全球产品线负责人、微软(亚洲)互联网工程院副院长李笛特意强调:“我必须提醒大家听的时候注意,这不是人,没有这么一个人。”点击下面视频,你能分辨这是AI唱的吗?视频中小冰翻唱的两首歌曲均为首次发布。

其中《少年弦》展示了唱腔过渡水准。“我们今天完成了V5的一个新的特性,让小冰从一种唱腔过渡到另外一种唱腔。小冰的这种唱腔过渡能够保持颗粒度很细的细节。比如从一种通俗的唱腔过渡到戏腔。”李笛解读说。的确,记者在现场几乎已感觉不到AI合成声音的那种生硬感。另一首李玉刚原唱的《新贵妃醉酒》则展示了小冰的戏腔训练成果。除了这两首最新发布的demo外,会上还展示了此前发布过的日文歌曲《最高新记忆》。这首歌展示了小冰演绎歌曲时的中气水平。李笛告诉记者,小冰和比如初音未来等其它虚拟歌手不同。这些虚拟歌手是用手调的方式来完成。“手调的方式有好处,但是最大的问题就在于细节处理是不够的,技术上限、未来的发展不够好。”歌手小冰如何练成?现场,李笛回顾了歌手小冰的诞生过程。他介绍,在唱歌方面,两年前生成了第一个版本。李笛回忆,第一个版本完成时,他们“欣喜若狂”,因为“它不是一个不会走调的软件乐器,而是好像你在KTV的时候听到隔壁包厢传过来的声音,它非常像是人。”李笛说,“它具备了足够多的细节,这些细节使得它可以像一个唱得不好的人,但是也是一个人。这让我们看到了这个技术方向是具备它接下来往下训练、学习的能力。”从第一个版本继续出发,到了第三个版本的时候,李笛表示“从技术角度来讲已经够了”,不过,他们提出了更高的要求——以人类的演唱标准去要求自己。“如果能够让小冰去学习不同的唱法,就是拥有所谓的技法。因为针对同样的一首歌,不同人会有自己不同的演绎。”李笛说。“所以我们找了很多行业内(音乐领域内)的专家来帮助我们去分析到底小冰缺在哪儿。(专家)告诉我们小冰缺在呼吸上,缺在气息上。既然知道了缺在哪儿,就有办法去弥补。”李笛说。第四个版本的演唱模型,完善了每句话开头和结尾的气息。而到了第五个版本,终于达到了全程气息融合。这个版本的小冰第一次能够像人类歌手一样,使用充沛的“中气”来烘托演唱,从而将人工智能虚拟歌声质量提升至新的高度。而这个版本的小冰也在日本正式出道——它,或者说是“她”已经与日本最大唱片公司AVEX正式签约。李笛透露,他们争取在今年年底,可以让日本版小冰登上日本的红白歌会。

本页网址:https://www.xinzhibang.net/article_detail-2691.html

寻求报道,请 点击这里 微信扫码咨询

关键词

微软 小冰 人工智能 唱歌 演唱模型

分享至微信: 微信扫码阅读

相关工具

相关文章