MIT研究人员发现隐藏在BERT模型中更精简高效的子网络_爱车智能

深度学习神经网络可以是巨大的，需要很大的计算能力。在对彩票假设的测试中，麻省理工学院的研究人员发现了隐藏在BERT模型中的更精简、更有效的子网络。

你不需要大锤来敲碎坚果。

Jonathan Frankle正在研究人工智能，而不是吃开心果，但同样的哲学也适用于他的“彩票假说”。它假设，隐藏在巨大的神经网络中，更精简的子网络可以更有效地完成同样的任务。诀窍是找到那些“幸运”的子网，被称为中奖彩票。

MIT研究人员发现隐藏在BERT模型中更精简高效的子网络_爱车智能_新能源

在一篇新的论文中，Frankle和他的同事们发现了隐藏在BERT（一种用于自然语言处理的最先进的神经网络方法）中的子网络。像是人工智能的一个分支，用来分析人工智能的文本生成。在计算方面，BERT是笨重的，通常要求超级计算能力，大多数用户无法使用。而使用伯特的中奖彩票可以使竞争更加公平，有可能让更多的用户在智能手机上开发有效的NLP工具，而不需要大锤。

弗兰克尔说：“我们已经到了必须使这些模型更精简、更高效的地步，”他补充说，这一进步有朝一日可能会“降低进入壁垒”。

弗兰克尔是麻省理工学院计算机科学与人工智能实验室Michael Carbin小组的博士生，他是这项研究的共同作者，该研究将在下个月的神经信息处理系统会议上发表。德克萨斯大学奥斯汀分校的陈天龙是这篇论文的主要作者，论文的合作者包括同样来自德州农工大学的王章阳，以及麻省理工学院-IBM沃森人工智能实验室的张士宇、刘思佳和张扬。

你今天可能和伯特网络有过互动。这是谷歌搜索引擎的基础技术之一，自2018年谷歌发布BERT以来，它引发了研究人员的兴奋。BERT是一种创建神经网络算法的方法，它使用分层节点或“神经元”，通过对大量实例的训练来学习执行任务。BERT是通过反复尝试填充文章中遗漏的单词来训练的，它的力量在于初始训练数据集的巨大规模。然后用户可以根据特定的任务对BERT的神经网络进行微调，比如构建一个客户服务聊天机器人。但是吵架伯特需要大量的处理能力。

弗兰克尔说：“如今，一个标准的BERT模型中，花园品种有3.4亿个参数，”他补充说，这个数字可以达到10亿。对如此庞大的网络进行微调需要一台超级计算机。这太贵了。这远远超出了你我的计算能力。”

陈同意。他说，尽管伯特的人气骤增，但这类模型“承受着巨大的网络规模”。幸运的是，“彩票假说似乎是一个解决办法。”

为了降低计算成本，陈和他的同事们试图找出隐藏在BERT中的一个更小的模型。他们通过反复修剪全BERT网络中的参数进行实验，然后将新子网的性能与原始BERT模型的性能进行比较。他们对一系列NLP任务进行了比较，从回答问题到填空句子中的空白词。

研究人员发现成功的子网络比最初的BERT模型要细40%到90%，这取决于任务。另外，他们能够在运行任何特定任务的微调之前识别出那些中彩票的人，这一发现可以进一步最小化NLP的计算成本。在某些情况下，为一个任务选择的子网可以重新用于另一个任务，尽管Frankle指出这种可转移性并不普遍。尽管如此，弗兰克尔还是对小组的结果非常满意。

他说：“我甚至觉得很震惊。这不是我想当然的事。我原以为结果会比我们得到的结果糟糕得多。”

Facebook人工智能研究公司（Facebook-AI-Research）的科学家阿里莫科斯（arimorcos）表示，在伯特模型中发现一张中奖彩票是“令人信服的，这些模式正变得越来越普遍，”Morcos说，因此，了解彩票假说是否成立是很重要的。“他补充说，这一发现可以使类伯特模型运行时使用的计算能力要少得多，”鉴于目前运行这些超大模型的成本非常高，这一发现可能会产生非常大的影响。

MIT研究人员发现隐藏在BE...

MIT研究人员发现隐藏在BERT模型中更精简高效的子网络

相关资讯