深度学习神经网络可以是巨大的,需要很大的计算能力。在对彩票假设的测试中,麻省理工学院的研究人员发现了隐藏在BERT模型中的更精简、更有效的子网络。
你不需要大锤来敲碎坚果。
Jonathan Frankle正在研究人工智能,而不是吃开心果,但同样的哲学也适用于他的“彩票假说”。它假设,隐藏在巨大的神经网络中,更精简的子网络可以更有效地完成同样的任务。诀窍是找到那些“幸运”的子网,被称为中奖彩票。
在一篇新的论文中,Frankle和他的同事们发现了隐藏在BERT(一种用于自然语言处理的最先进的神经网络方法)中的子网络。像是人工智能的一个分支,用来分析人工智能的文本生成。在计算方面,BERT是笨重的,通常要求超级计算能力,大多数用户无法使用。而使用伯特的中奖彩票可以使竞争更加公平,有可能让更多的用户在智能手机上开发有效的NLP工具,而不需要大锤。
弗兰克尔说:“我们已经到了必须使这些模型更精简、更高效的地步,”他补充说,这一进步有朝一日可能会“降低进入壁垒”。
弗兰克尔是麻省理工学院计算机科学与人工智能实验室Michael Carbin小组的博士生,他是这项研究的共同作者,该研究将在下个月的神经信息处理系统会议上发表。德克萨斯大学奥斯汀分校的陈天龙是这篇论文的主要作者,论文的合作者包括同样来自德州农工大学的王章阳,以及麻省理工学院-IBM沃森人工智能实验室的张士宇、刘思佳和张扬。
你今天可能和伯特网络有过互动。这是谷歌搜索引擎的基础技术之一,自2018年谷歌发布BERT以来,它引发了研究人员的兴奋。BERT是一种创建神经网络算法的方法,它使用分层节点或“神经元”,通过对大量实例的训练来学习执行任务。BERT是通过反复尝试填充文章中遗漏的单词来训练的,它的力量在于初始训练数据集的巨大规模。然后用户可以根据特定的任务对BERT的神经网络进行微调,比如构建一个客户服务聊天机器人。但是吵架伯特需要大量的处理能力。
弗兰克尔说:“如今,一个标准的BERT模型中,花园品种有3.4亿个参数,”他补充说,这个数字可以达到10亿。对如此庞大的网络进行微调需要一台超级计算机。这太贵了。这远远超出了你我的计算能力。”
陈同意。他说,尽管伯特的人气骤增,但这类模型“承受着巨大的网络规模”。幸运的是,“彩票假说似乎是一个解决办法。”
为了降低计算成本,陈和他的同事们试图找出隐藏在BERT中的一个更小的模型。他们通过反复修剪全BERT网络中的参数进行实验,然后将新子网的性能与原始BERT模型的性能进行比较。他们对一系列NLP任务进行了比较,从回答问题到填空句子中的空白词。
研究人员发现成功的子网络比最初的BERT模型要细40%到90%,这取决于任务。另外,他们能够在运行任何特定任务的微调之前识别出那些中彩票的人,这一发现可以进一步最小化NLP的计算成本。在某些情况下,为一个任务选择的子网可以重新用于另一个任务,尽管Frankle指出这种可转移性并不普遍。尽管如此,弗兰克尔还是对小组的结果非常满意。
他说:“我甚至觉得很震惊。这不是我想当然的事。我原以为结果会比我们得到的结果糟糕得多。”
Facebook人工智能研究公司(Facebook-AI-Research)的科学家阿里莫科斯(arimorcos)表示,在伯特模型中发现一张中奖彩票是“令人信服的,这些模式正变得越来越普遍,”Morcos说,因此,了解彩票假说是否成立是很重要的。“他补充说,这一发现可以使类伯特模型运行时使用的计算能力要少得多,”鉴于目前运行这些超大模型的成本非常高,这一发现可能会产生非常大的影响。