缩小用于建模语言的大规模神经网络

乔纳森·弗兰克(Jonathan Frankle)正在研究人工智能，而不是开心果，但同样的哲学也适用于他的“彩票假设”。它假定，隐藏在大规模神经网络中的精益子网可以更有效地完成相同的任务。诀窍是找到那些被称为中奖彩票的“幸运”子网。

在一篇新论文中，Frankle及其同事发现了潜伏在BERT中的此类子网，BERT是一种用于自然语言处理(NLP)的先进神经网络方法。作为人工智能的一个分支，NLP旨在通过预测文本生成或在线聊天机器人等应用程序来解密和分析人类语言。在计算方面，BERT体积庞大，通常需要大多数用户无法获得的超级计算能力。可以使用BERT的中奖彩票，可以公平竞争，从而可能使更多用户在智能手机上开发有效的NLP工具，而无需使用大锤。

弗兰克勒说：“我们正在达到必须使这些模型更精简，更高效的地步。”他补充说，这一进步有一天可能会“减少NLP的准入门槛”。

Frankle博士该研究的共同作者是麻省理工学院计算机科学与人工智能实验室的迈克尔·卡宾小组的学生，该研究将于下个月在神经信息处理系统会议上发表。德克萨斯大学奥斯汀分校的陈天龙是该论文的主要作者，其中包括得克萨斯州A&M的合作者Wang Zhangyang Wang，以及所有MIT-IBM Watson AI Lab的常石宇，刘思佳和张扬。

您今天可能已经与BERT网络进行了互动。这是Google搜索引擎的基础技术之一，自Google于2018年发布BERT以来，它一直引起研究人员的兴奋。BERT是一种创建神经网络的方法，即使用分层节点或“神经元”的算法来学习执行神经网络。通过培训大量实例来完成任务。BERT是通过反复尝试填写写作段落中遗漏的单词来进行训练的，其力量在于此初始训练数据集的庞大规模。然后，用户可以将BERT的神经网络微调至特定任务，例如构建客户服务聊天机器人。但是争吵的BERT需要大量的处理能力。

弗兰克尔说：“如今，标准的BERT模型(花园品种)具有3.4亿个参数，”他补充说，这个数字可以达到10亿。对如此庞大的网络进行微调可能需要一台超级计算机。“这简直太贵了。这远远超出了您或我的计算能力。”

陈同意。他说，尽管BERT迅速流行，但此类模型“仍受庞大的网络规模的影响”。幸运的是，“彩票假设似乎是一种解决方案”。

为了削减计算成本，Chen和他的同事试图找出隐藏在BERT中的较小模型。他们通过迭代修剪整个BERT网络的参数进行了实验，然后将新子网的性能与原始BERT模型的性能进行了比较。他们对一系列NLP任务进行了此比较，从回答问题到填充句子中的空白词。

研究人员发现，根据任务的不同，成功的子网比最初的BERT模型薄40%至90%。另外，他们能够在运行任何特定任务的微调之前识别出那些中奖彩票，这一发现可以进一步降低NLP的计算成本。在某些情况下，为一项任务选择的子网可以重新用于另一项任务，尽管Frankle指出这种可移植性并不普遍。尽管如此，弗兰克勒还是对该小组的结果感到满意。

他说：“我什至为这项工作感到震惊。” “这不是我想当然的事情。我期望比我们得到的结果更混乱。”

Facebook AI Research的科学家阿里·莫尔科斯(Ari Morcos)称，在BERT模式中发现中奖彩票的发现“令人信服”。“这些模型正变得越来越普遍，” Morcos说。“因此了解彩票假设是否成立很重要。” 他补充说，这一发现可能使类似BERT的模型使用更少的计算能力运行，“鉴于这些非常大的模型当前运行成本非常高，这可能会产生很大的影响。”

弗兰克(Frankle)同意。他希望这项工作可以使BERT更易于访问，因为它逆转了NLP模型不断增长的趋势。他说：“我不知道使用这些超级计算机风格的计算可以得到多大的收益。” “我们将不得不减少进入壁垒。” 确定一个精简的，赢得彩票的子网可以做到这一点，从而使缺乏Google或Facebook计算能力的开发人员仍然可以执行先进的NLP。弗兰克尔说：“希望这样做可以降低成本，使每个人都可以使用它……对于那些只有笔记本电脑的小家伙来说，”。“对我来说，真的很令人兴奋。”

标签：神经网络

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

缩小用于建模语言的大规模神经网络

猜你喜欢

最新文章