Maxine平台利用人工智能来实时改善视频会议的画面质量和客户体验度。Maxine使用深度学习来提高分辨率,减少背景杂讯,视频压缩,面部对齐以及实时翻译和转录。
在本篇文章中,我们将研究其中的某些功能如何工作以及它们如何与Nvidia的AI研究相结合。我们还将探讨Nvidia基于AI的视频会议平台的悬而未决的问题和可能的商业模式。
神经网络的超分辨率
Maxine演示文稿中显示的第一个功能是“超分辨率”,根据Nvidia的说法,“该平台可以实时将低分辨率转换为高分辨率视频。” 超级分辨率使视频会议呼叫者可以发送高分辨率视频流,并在服务器上对其进行放大。这减少了视频会议应用程序的带宽需求,并使它们在网络连接不稳定的区域中的性能更加稳定。
提升可视数据的最大挑战是填充丢失的信息。您代表图像的像素数组有限,并且您想将其扩展到包含更多像素的更大画布。您如何确定这些新像素获得的颜色值?
旧的按比例缩放技术使用不同的插值方法填充像素之间的空间。这些技术太笼统,可能会在不同类型的图像和背景中产生混合结果。
机器学习算法的好处之一是可以对其进行调整以执行非常具体的任务。例如,可以在从视频会议流及其相应的高分辨率原始图像中抓取的按比例缩小的视频帧上训练深度神经网络。有了足够多的示例,神经网络会将其参数调整为视频会议可视数据(主要是人脸)中的一般特征,并且比通用的放大算法能够提供更好的从低分辨率到高分辨率的转换。通常,域越窄,神经网络收敛于非常高精度的性能的机会就越大。
关于使用人工神经网络提升视觉数据的规模已经有了坚实的研究,包括2017年Nvidia的一篇论文,该论文讨论了深度神经网络的一般超分辨率。视频会议是一个非常专业的案例,训练有素的神经网络势必比更一般的任务执行得更好。除了视频会议之外,该技术在其他领域也有应用,例如电影业,它使用深度学习将旧视频重新制作成更高质量。
神经网络视频压缩
Maxine演示中最有趣的部分之一是AI视频压缩功能。在Nvidia的YouTube上发布的视频显示,使用神经网络压缩视频流将带宽从〜97 KB /帧减少到〜0.12 KB /帧,这有点夸张,正如用户在Reddit上指出的那样。Nvidia的网站指出,开发人员可以将带宽使用降低到“ H.264视频压缩标准所需带宽的十分之一”,这是一个更加合理且仍然令人印象深刻的数字。
Nvidia的AI如何实现如此出色的压缩率?一个博客帖子NVIDIA的网站提供了技术是如何工作的更多细节。神经网络为每帧提取并编码用户关键面部特征的位置,这比压缩像素和颜色数据要有效得多。然后,将编码的数据与在会话开始时捕获的参考视频帧一起传递到生成对抗网络。GAN被训练通过将面部特征投影到参考框架上来重建新图像。
AI视频压缩
该工作建立在之前在Nvidia进行的GAN研究的基础上,该研究将粗糙的草图映射到图像和图纸上。
AI视频压缩再次显示了狭窄的域如何为使用深度学习算法提供出色的设置。
脸部对齐功能可重新调整用户脸部的角度,使其看起来就像他们直接注视相机一样。这是视频会议中非常常见的问题,因为人们倾向于在屏幕上注视其他人的面部,而不是注视摄像机。
NVidia AI压缩技术
尽管没有很多细节,但是博客文章提到他们使用GAN。不难看出如何将此功能与AI压缩/解压缩技术捆绑在一起。英伟达已经对地标检测和编码进行了广泛的研究,包括提取不同角度的面部特征和注视方向。可以将编码馈送到将面部特征投射到参考图像上的其余GAN中。
Maxine在哪里运行其深度学习模型?
Maxine还有很多其他巧妙的功能,包括与Nvidia对话式AI平台JARVIS的集成。进入所有这些将超出本文的范围。
但是一些技术问题仍有待解决。例如,一个问题是Maxine的功能将在云服务器上运行多少,在用户设备上有多少功能。Nvidia的发言人在回应TechTalks的询问时说:“ NVIDIA Maxine旨在执行云中的AI功能,以便每个用户都可以访问它们,而与他们使用的设备无关。”
这对于某些功能(例如超分辨率,虚拟背景,自动构图和降噪)是有意义的。但这对其他人似乎毫无意义。以AI视频压缩示例为例。理想情况下,进行面部表情编码的神经网络必须在发送方的设备上运行,而重构视频帧的GAN必须在接收方的设备上运行。如果所有这些功能都在服务器上执行,将不会节省带宽,因为用户将发送和接收全帧,而不是轻得多的面部表情编码。
理想情况下,应该有某种配置,允许用户在本地和云AI推理之间选择合适的平衡,以在网络和计算可用性之间达到合适的平衡。例如,拥有工作站和强大GPU卡的用户可能希望在其计算机上运行所有深度学习模型,以换取较低的带宽使用量或节省成本。另一方面,从处理能力低的移动设备加入会议的用户将放弃本地AI压缩,并将虚拟背景和降噪工作推迟到Maxine服务器。
Maxine的商业模式是什么?
随着covid-19大流行的推动,公司实施了远程工作协议,这似乎和视频会议应用程序的上市一样好。随着AI仍处于炒作旺季的高潮,公司倾向于将其产品重塑为“ AI驱动”以提高销量。因此,对于这些名称中具有“视频会议”和“ AI”的东西,我通常都持怀疑态度,我认为其中许多人将不兑现诺言。
但是我有一些理由相信英伟达的Maxine在其他人失败的地方会成功。首先,英伟达拥有进行可靠的深度学习研究的记录,尤其是在计算机视觉领域以及最近在自然语言处理领域。该公司还拥有基础设施和财务手段,可以继续开发和改进其AI模型并将其提供给客户。Nvidia的GPU服务器及其与云提供商的合作关系将使其能够随着客户群的增长而扩展。而且,它最近对移动芯片制造商ARM的收购将使其处于将这些AI功能中的某些功能推向边缘的合适位置(将来可能是采用Maxine技术的视频会议摄像机)。
Maxine是很好地利用狭窄AI的理想示例。与试图解决各种问题的计算机视觉应用程序相反,Maxine的所有功能都是针对特殊设置量身定制的:与摄像机交谈的人。如各种实验所示,随着问题领域的扩大,即使是最先进的深度学习算法也失去了准确性和稳定性。相反,随着神经网络的问题域变窄,它更有可能捕获实际的数据分布。
但是,正如我们之前在这些页面上所看到的那样,一种有趣的有效技术与具有成功商业模式的技术之间存在巨大差异。
Maxine目前处于早期访问模式,因此将来可能会发生很多变化。目前,Nvidia计划将其作为SDK和一系列API集成在Nvidia服务器上,开发人员可以将其集成到其视频会议应用程序中。企业视频会议已经有两个主要参与者,即Teams和Zoom。团队已经拥有大量基于AI的功能,对于Microsoft来说,添加Maxine提供的某些功能并不难。
Maxine的最终定价模型是什么?节省带宽所带来的好处是否足以证明这些成本合理?是不是会刺激诸如Zoom和Microsoft团队这样的大型公司与Nvidia合作,还是他们会添加自己的相同功能版本?Nvidia会继续使用SDK / API模型还是开发自己的独立视频会议平台?随着开发人员探索其新的基于AI的视频会议平台,Nvidia将不得不回答这些问题以及许多其他问题。