新知榜官方账号
2023-11-29 16:56:30
机器之心报道 机器之心编辑部
用AI打电话真的可以骗到钱?是的。而且,克隆指定人的语音只需要一段5秒的录音做样本。用AI打一个电话骗走22万欧元AI技术的应用门槛正在不断降低,换脸、换声音、生成各种不存在的人像都变得非常容易,但与此同时,犯罪的门槛也降低了。
据《华尔街日报》报道,今年3月份,一个不知名的黑客组织利用AI语音克隆技术打诈骗电话,结果成功骗到了22万欧元。接电话的是英国能源公司的一名CEO,在电话中,黑客冒充了该公司母公司董事长,催促该CEO紧急进行一笔大额转账,接收方是匈牙利的一家供应商。
黑客要求在1小时之内转账,而且他们成功地模仿了那位董事长夹杂德国口音的英语,于是该CEO信以为真,将钱打到了指定账户。得逞之后,他们又联系该CEO,以董事长的身份告诉他这笔钱会回流到公司账户。但在资金回流之前,黑客再次冒充董事长打来电话,要求CEO再转一笔钱,而且这次是从匈牙利打来的。
此时,CEO感觉事有蹊跷,拒绝了转账要求。然而,之前转给匈牙利供应商的那笔钱已经被转移到了墨西哥和其它几个地方。警方现在还没有找到犯罪嫌疑人,但所幸,为该公司承保的保险公司愿意赔偿。
克隆语音只需5秒的录音样本
随着自然语言处理技术的进步,用AI合成特定人声已经不是什么难事。今年5月份,搜狗在一场大会上展示了变声功能,可以把任何人的声音转化成特定声音,让你的声音秒变志玲、马云、高晓松。而谷歌的一项研究甚至可以借助5秒钟的参照语音克隆任意语音。
去年6月,谷歌科学家在arXiv上发布了一篇用迁移学习完成语音合成的论文,提出了一个名为SpeakerVerificationtoMultispeakerText-To-Speech(简称SV2TTS)的框架。它是一个用于零样本(zero-shot)语音克隆的框架,只需要5秒钟的参照语音。也就是说,如果你的录音泄露出去,哪怕只有一小段,也很有可能会被坏人利用。
这项全新的语音合成技术能够通任意一段参考音频中提取出说话者的声纹信息,并生成与其相似度极高的合成语音,参考音频与最终合成的语音甚至不必是同一种语言。除了利用参考音频作为输入外,该技术还能随机生成虚拟的声线,以「不存在的说话者」的声音进行语音合成。
近日,来自比利时列日大学的研究人员复现了该框架并开源了他们的实现,还提供GitHub开源工具箱。他们采用了一个新的声码器模型来调整框架,使其能够实时运行。GitHub地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
谷歌的SV2TTS是什么?SV2TTS是一种三段式深度学习框架,允许人们从几秒钟的音频中创建语音的数字表征,文字转语音模型使用数字表征进行训练并生成新的语音。
声码器在SV2TTS和Tacotron2中,WaveNet是声码器。自推出以来,WaveNet一直都是音频深度学习的核心,并在TTS的语音自然性方面保持当前最优水平。但是,WaveNet也是推理时速度最慢的实用型深度学习架构。之后的研究对这方面进行了改进,使生成速度接近或快于实时速度,生成语音的质量则几乎没有影响。尽管如此,WaveNet在SV2TTS中依然作为声码器,因为速度不是主要的考虑因素,并且Google自己的WaveNet实现进行了各种改进,每秒钟能够生成8,000个样本。这与VanillaWaveNet形成对比,后者每秒最多能够生成172个步骤。
工具箱和开源最后,研究者正在开发出一个图形界面,用户不需要率先进行研究即可以快速获取该框架。他们称之为「SV2TTS工具箱」,其界面如图21所示。SV2TTS工具箱使用Python语言编写,具有Qt4图像界面,可跨平台。
相关工具
相关文章
相关快讯
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28