为什么机器学习模型应该更小?

最近,NVIDIA公司的分析人员推出了MegatronLM,这一个是一种具有83亿个参数(比BERT大很多倍)的巨大数据模型,可在各种语言任务上实现最先进的性能。


有许多实例被训练以在不同基准上实现更高的精度。尽管比BERT大24倍,但MegatronLM的语言建模任务仅高出34%。作为展示新硬件性能的巧合试验,这里没有太多损坏。但是,从长远来看,这种模式会引起很多问题。


随着越来越多的人工智能应用程序转移到手机中,深度学习模型越来越小,以允许应用程序更快地运行并节省电池电量。目前,麻省理工学院的分析师们还有另一种更好的方法来压缩模型。


甚至有专门针对低功率或很少机器学习的行业峰会。修剪、量化和转移学习是三个明确的过程,可以使那些没有足够资源来将资源投入到将模型投入生产的公司中使机器学习民主化。这对于“边缘”用例尤为重要,在这种情况下,更大、特定的人工智能硬件确实是不合逻辑的。


在过去的几年中,修剪的主要方法已成为众所周知的勘探主题。包括深度压缩和彩票假说在内的引用的论文表明,可以在不损失精度的情况下消除神经网络中“神经元”之间的一些不必要的连接,这可以使模型更小,更简单地在模型上运行资源受限的设备。新论文还尝试并改进了较早的过程,以创建较小的模型,从而实现更高的突出率和准确性水平。对于某些型号,例如ResNet,可以将其修剪大约90%,而不会影响精度。


Renda在最近的国际学习代表大会(ICLR)开会时谈到了这种方法。Renda与麻省理工学陆家电气工程与计算机科学系(EECS)的博士研究生Jonathan Frankle以及电气工程与计算机科学的助理教授Michael Carbin(计算机科学的所有成员)合著了该书。

为什么机器学习模型应该更小?_娱乐产业_社交娱乐

为了确保深度学习满足其保证,需要将研究重心从尖端的精度转移到一流的生产力。人们需要询问模型是否能够利用最多的设备上最少的资产,使最大数量的个人尽可能快地重复。


最终,虽然这绝对不是模型合同的方法,但是转移学习可以在训练其他模型的数据有限的情况下提供帮助。转移学习利用预先训练的模型作为开始阶段。可以使用有限的数据集将模型的信息“移动”到另一个任务,而无需进行任何准备就无需重新训练第一个模型。这是减少训练新模型所需的计算能力,能源和金钱的重要方法。


其关键要点在于,可以(并且应该)在可以想到的任何一点上以更少的计算能力对模型进行优化。寻找减小模型尺寸和相关计算能力而又不丧失性能或准确性的方法,将是机器学习的下一个巨大突破。


85
107
0
62

相关资讯

  1. 1、电容性负载稳定性问题的探究和解决方案5024
  2. 2、什么是VR什么是AR3548
  3. 3、RFID加EEPROM可以变成物联网?4865
  4. 4、Zigbee的协议栈结构和技术特点的详细介绍4211
  5. 5、未来5年,人工智能与机器人将进一步扩大到各个就业岗位497
  6. 6、LED显示屏防静电的方法有哪些4274
  7. 7、水下机器人崭露头角,“新基建”将赋能水下机器人?1735
  8. 8、电磁干扰EMI是如何进行传播的3619
  9. 9、7年来利润率最低!6类汽车零部件供应商寒冬下自救2855
  10. 10、工业互联网,产业数字化转型的关键3156
全部评论(0)
我也有话说
0
收藏
点赞
顶部