Facebook AI Research和特拉维夫大学的科学家合作创造了一个 人工智能 系统,能够在5到30分钟的时间内将一个歌手的声音转换为另一个歌手的声音。更神奇的是,由于这些科学家采用了创新的训练方案和数据增强技术,该系统是无监督的,这意味着它能够执行未分类、未注释数据的转换。
该系统建立在WaveNet上,这是一种 谷歌 开发的自动编码器,可以根据录音波形生成模型。它采用了反向翻译技术,将一个歌手的声音转换为另一个歌手的声音。如果它与原始样本不匹配,就将其翻译回来并调整进行下一次尝试。这种方式甚至可以在背景音乐存在的情况下执行声音的转换。
在实验中,科学家们使用了两个公开的数据集,斯坦福大学的移动表演数字档案馆(DAMP)语料库和新加坡国立大学的成语和口语语料库(NUS-48E),其中包含各种歌手演唱的歌曲。他们随机选择了一些歌手的歌曲进行训练,并且在训练的基础上,让人工智能系统完成了音频的替换。然后,他们让人类评论员以1-5的等级判断所产生的声音与目标歌声的相似性,并使用涉及分类系统的自动测试来更客观地评估样本的质量。“导师”们最后给出的平均得分约为4分(被认为是优质),而自动测试发现所生成样本的识别准确度几乎与重建样本的识别准确度一样高。