MIT研究人员发现隐藏在BERT模型中更精简高效的子网络

深度学习神经网络可以是巨大的,需要很大的计算能力。在对彩票假设的测试中,麻省理工学院的研究人员发现了隐藏在BERT模型中的更精简、更有效的子网络。


你不需要大锤来敲碎坚果。


Jonathan Frankle正在研究人工智能,而不是吃开心果,但同样的哲学也适用于他的“彩票假说”。它假设,隐藏在巨大的神经网络中,更精简的子网络可以更有效地完成同样的任务。诀窍是找到那些“幸运”的子网,被称为中奖彩票。

MIT研究人员发现隐藏在BERT模型中更精简高效的子网络_爱车智能_新能源

在一篇新的论文中,Frankle和他的同事们发现了隐藏在BERT(一种用于自然语言处理的最先进的神经网络方法)中的子网络。像是人工智能的一个分支,用来分析人工智能的文本生成。在计算方面,BERT是笨重的,通常要求超级计算能力,大多数用户无法使用。而使用伯特的中奖彩票可以使竞争更加公平,有可能让更多的用户在智能手机上开发有效的NLP工具,而不需要大锤。


弗兰克尔说:“我们已经到了必须使这些模型更精简、更高效的地步,”他补充说,这一进步有朝一日可能会“降低进入壁垒”。


弗兰克尔是麻省理工学院计算机科学与人工智能实验室Michael Carbin小组的博士生,他是这项研究的共同作者,该研究将在下个月的神经信息处理系统会议上发表。德克萨斯大学奥斯汀分校的陈天龙是这篇论文的主要作者,论文的合作者包括同样来自德州农工大学的王章阳,以及麻省理工学院-IBM沃森人工智能实验室的张士宇、刘思佳和张扬。


你今天可能和伯特网络有过互动。这是谷歌搜索引擎的基础技术之一,自2018年谷歌发布BERT以来,它引发了研究人员的兴奋。BERT是一种创建神经网络算法的方法,它使用分层节点或“神经元”,通过对大量实例的训练来学习执行任务。BERT是通过反复尝试填充文章中遗漏的单词来训练的,它的力量在于初始训练数据集的巨大规模。然后用户可以根据特定的任务对BERT的神经网络进行微调,比如构建一个客户服务聊天机器人。但是吵架伯特需要大量的处理能力。


弗兰克尔说:“如今,一个标准的BERT模型中,花园品种有3.4亿个参数,”他补充说,这个数字可以达到10亿。对如此庞大的网络进行微调需要一台超级计算机。这太贵了。这远远超出了你我的计算能力。”


陈同意。他说,尽管伯特的人气骤增,但这类模型“承受着巨大的网络规模”。幸运的是,“彩票假说似乎是一个解决办法。”


为了降低计算成本,陈和他的同事们试图找出隐藏在BERT中的一个更小的模型。他们通过反复修剪全BERT网络中的参数进行实验,然后将新子网的性能与原始BERT模型的性能进行比较。他们对一系列NLP任务进行了比较,从回答问题到填空句子中的空白词。


研究人员发现成功的子网络比最初的BERT模型要细40%到90%,这取决于任务。另外,他们能够在运行任何特定任务的微调之前识别出那些中彩票的人,这一发现可以进一步最小化NLP的计算成本。在某些情况下,为一个任务选择的子网可以重新用于另一个任务,尽管Frankle指出这种可转移性并不普遍。尽管如此,弗兰克尔还是对小组的结果非常满意。


他说:“我甚至觉得很震惊。这不是我想当然的事。我原以为结果会比我们得到的结果糟糕得多。”


Facebook人工智能研究公司(Facebook-AI-Research)的科学家阿里莫科斯(arimorcos)表示,在伯特模型中发现一张中奖彩票是“令人信服的,这些模式正变得越来越普遍,”Morcos说,因此,了解彩票假说是否成立是很重要的。“他补充说,这一发现可以使类伯特模型运行时使用的计算能力要少得多,”鉴于目前运行这些超大模型的成本非常高,这一发现可能会产生非常大的影响。


99
59
0
24

相关资讯

  1. 1、任嘉伦新剧未播先火,看到女主后确定是顶配,是《长歌行》的她3678
  2. 2、吴京甄子丹唱歌曝光,两人肩搭背吃火锅,俩人这是喝高兴了呀2390
  3. 3、黯淡的十月院线,被这部小成本国产片发出的光芒照亮了4814
  4. 4、女人最大的魅力不是经济独立,不是花容月貌,而是……4314
  5. 5、《香蜜》完结,杨紫狠狠地打了谁的脸?3045
  6. 6、片长112分21秒,内地一刀不剪,这部32亿票房大片续集来了935
  7. 7、于荣光38年艺人生涯,在电影圈火不起来,却在另一个圈子红到发紫2778
  8. 8、2019年最受期待好莱坞电影Top50出炉!8部超级英雄1636
  9. 9、《特种兵归来4-替身疑云》定档2月4日一起揭开“魔鬼面具”的真相3921
  10. 10、他学吴京砸家产当导演,20天票房才330万,赔了积蓄又欠人情608
全部评论(0)
我也有话说
0
收藏
点赞
顶部