如果你今年呆在家里听了更多的播客,你可能已经注意到虚拟对话上升的一个副作用:音频质量下降。通过电话或视频聊天进行的采访通常包括背景噪音、混响和失真。
现在,普林斯顿大学的研究人员开发出了一种新的方法,可以改善乔维德时代及以后的听力体验。使用人工智能(AI)方法,即深度学习,该技术可以转换低质量的人类语音记录,接近录音室录制的声音的清晰度和清晰度。
虽然其他基于人工智能的改善语音记录的方法通常只处理音频质量的一个方面,例如过滤背景噪声或消除混响,但这种方法更像是一个多功能的工具。最终,研究人员希望应用他们的框架来实现全自动、实时的语音增强。
“以前的方法主要集中在提高语音的清晰度上,但这些方法可以使听力体验更平顺,因此结果质量对听力不是很好,”计算机科学研究生、论文主要作者Jiaqi Su说,研究人员称这种方法为HiFi-GAN。
HiFi-GAN使用人工神经网络,这是深度学习的关键工具,可以模拟生物神经元的互连结构。在这个系统中,两个独立的网络竞争以提高音频质量。其中一个叫做发电机的网络可以产生经过清理的语音记录。另一个网络称为鉴别器,它分析录音,试图确定它们是真正的录音室质量的录音还是录音机清理过的音频。这些生成性对抗网络(GANs)之间的竞争提高了该方法产生清晰音频的能力。
发电机和鉴别器网络在进行一种军备竞赛。”作者之一、计算机科学教授亚当·芬克尔斯坦(Adam Finkelstein)说:“生成器的工作就是试图愚弄歧视者。”他们两个步步为营,在训练中变得越来越有效率。当这一过程完成后,您可以扔掉鉴别器,而您所拥有的就是一个非常棒的生成器。”
为了评估HiFi-GAN产生的录音,研究人员使用了几种客观的音频质量测量方法。他们还求助于众包平台Amazon Mechanical Turk来收集人类听众的主观判断,这些人对HiFi-GAN的结果和其他音频质量改进算法的结果进行了评级。在Amazon Mechanical Turk上录制的2.8万名听众评分中,HiFi GAN得分高于其他五种改善音质的方法。
“我们在实验中经常观察到的问题是,客观指标与人的感知并不完全相关,因此,你的方法很有可能得到更高的分数,但实际上它产生了更糟糕的倾听体验。这就是为什么我们还要进行主观评价,”苏说。
在相关的工作中,芬克尔斯坦的团队和其他人开发了一种客观的度量标准,来检测和量化人类耳朵可以感知到的音频记录中的细微差异,但这对人工智能算法来说一直是一个挑战。这项指标是根据亚马逊Mechanical Turk上收集到的大约55000个人类判断进行训练的,它可以提高像HiFi-GAN这样的音频质量增强器的性能,也可以更广泛地帮助评估处理音频记录的深度学习方法。
学分:普林斯顿大学
本文提出了一种新的机器学习工具评估音频质量或比较音频记录的指标。该方法建立在现有的对抗性学习方法的基础上,其中生成器和鉴别器网络竞争以提高算法的输出。该度量可以确定,例如,人工智能生成的音频录制与参考录音室质量录制的接近程度。
“我们想找到一种人类能与之相关的感知指标,”研究报告的主要作者、计算机科学研究生普拉内·马诺查(Pranay Manocha)说例如,如果我们播放两个录音,然后询问它们是否完全相同或不同,我们的指标能够给出与人类做出的判断相关的答案。”
虽然在音频处理中有许多这样的指标,但这种方法通过检测微小的差异(研究人员称之为“很明显的”)来改进这些指标,例如并非语音主要成分的高频泛音的细微变化。
芬克尔斯坦说:“深度学习已经对音频处理产生了巨大的影响,我们预计它在未来十年会变得更加深刻”,但是有一个大问题,这有点深奥:对于要学习的机器来说,它需要知道它做得有多好……它需要一种叫做损失函数的东西。”
芬克尔斯坦说:“在设计一个好的损失函数时,我们需要一种全自动的方法来确定人类是否会说出两个声音相似的片段。”“在训练神经网络的同时”问人类这个问题是不实际的,因为它涉及到在算法寻找一个好的解决方案的同时向人类提出无数个问题。因此,我们正在开发一种自动方法来预测人类将如何回答这个问题。”
Su和Manocha在INTERSPEECH上提交了描述这些项目的论文,INTERSPEECH是一个专注于语音处理和应用的国际会议,几乎在今年10月举行。
HiFi-GAN和显著的差异度量提供了可用于各种音频处理任务的通用方法。研究人员现在正在调整他们的方法来实现实时语音增强,这可能会在缩放对话或网络研讨会中使用。
该团队还将为HiFi-GAN增加带宽扩展功能。芬克尔斯坦说,这将重现听众从高采样率录音中获得的“在场感”体验,而消费者级录音和在线电话会议往往缺少这种体验。
Su,Finkelstein和其他人是论文“HiFi-GAN:基于敌方网络中语音深度特征的高保真去噪和去冗余”论文的合著者包括Manocha和Finkelstein。