文本到语音的转换正在变得越来越普及,但仍存在一个问题:它需要大量的训练时间和资源才能生成自然的输出。 微软 和中国的研究人员可能有更有效的方法。他们制作了一个文本到语音的 人工智能 ,它只需要200个语音样本(大约20分钟)和匹配的转录,就可以生成逼真的语音。
微软小冰已经有了动画形象,若再加上逼真生动的语音,必将成为广大宅男的福音。
该系统在一定程度上依赖于一个转换器,也就是大致模拟大脑中神经元的深层神经网络。转换器像突触连接一样在飞行中测量每一个输入和输出,帮助它们高效地处理甚至是冗长的序列——比方说一个复杂的句子。结合去噪编码器组件,人工智能的工作效率会大大提高。
带有少许机械性的语音或许并不完美,但它们具有99.84%的单词可理解性,因而具有很高的准确度。这可以使文字到语音的转换更容易理解。研究人员希望在不匹配的数据上进行训练,因此可能在原有的工作量上进一步缩减就可以实现更逼真的对话。