最近,NVIDIA公司的分析人员推出了MegatronLM,这一个是一种具有83亿个参数(比BERT大很多倍)的巨大数据模型,可在各种语言任务上实现最先进的性能。
有许多实例被训练以在不同基准上实现更高的精度。尽管比BERT大24倍,但MegatronLM的语言建模任务仅高出34%。作为展示新硬件性能的巧合试验,这里没有太多损坏。但是,从长远来看,这种模式会引起很多问题。
随着越来越多的人工智能应用程序转移到手机中,深度学习模型越来越小,以允许应用程序更快地运行并节省电池电量。目前,麻省理工学院的分析师们还有另一种更好的方法来压缩模型。
甚至有专门针对低功率或很少机器学习的行业峰会。修剪、量化和转移学习是三个明确的过程,可以使那些没有足够资源来将资源投入到将模型投入生产的公司中使机器学习民主化。这对于“边缘”用例尤为重要,在这种情况下,更大、特定的人工智能硬件确实是不合逻辑的。
在过去的几年中,修剪的主要方法已成为众所周知的勘探主题。包括深度压缩和彩票假说在内的引用的论文表明,可以在不损失精度的情况下消除神经网络中“神经元”之间的一些不必要的连接,这可以使模型更小,更简单地在模型上运行资源受限的设备。新论文还尝试并改进了较早的过程,以创建较小的模型,从而实现更高的突出率和准确性水平。对于某些型号,例如ResNet,可以将其修剪大约90%,而不会影响精度。
Renda在最近的国际学习代表大会(ICLR)开会时谈到了这种方法。Renda与麻省理工学陆家电气工程与计算机科学系(EECS)的博士研究生Jonathan Frankle以及电气工程与计算机科学的助理教授Michael Carbin(计算机科学的所有成员)合著了该书。
为了确保深度学习满足其保证,需要将研究重心从尖端的精度转移到一流的生产力。人们需要询问模型是否能够利用最多的设备上最少的资产,使最大数量的个人尽可能快地重复。
最终,虽然这绝对不是模型合同的方法,但是转移学习可以在训练其他模型的数据有限的情况下提供帮助。转移学习利用预先训练的模型作为开始阶段。可以使用有限的数据集将模型的信息“移动”到另一个任务,而无需进行任何准备就无需重新训练第一个模型。这是减少训练新模型所需的计算能力,能源和金钱的重要方法。
其关键要点在于,可以(并且应该)在可以想到的任何一点上以更少的计算能力对模型进行优化。寻找减小模型尺寸和相关计算能力而又不丧失性能或准确性的方法,将是机器学习的下一个巨大突破。