缩小用于建模语言的大规模神经网络
一种新的方法可以降低计算成本,并增加对最新自然语言处理的可访问性。您不需要用大锤敲碎螺母。乔纳森·弗兰克(Jonathan Frankle)正在研究人工智能,而不是开心果,但他的“彩票假设”也采用了相同的哲学。假设隐藏在大规模神经网络中的精益子网可以更有效地完成相同的任务。诀窍是找到那些被称为中奖彩票的“幸运”子网。
深度学习神经网络可能规模庞大,需要强大的计算能力。在对彩票假说的测试中,麻省理工学院的研究人员发现了隐藏在BERT模型中的更精简,更有效的子网。图片来源:麻省理工学院Jose-Luis Olivares
在一篇新论文中,Frankle及其同事发现了潜伏在BERT中的此类子网,BERT是一种用于自然语言处理(NLP)的先进神经网络方法。作为人工智能的一个分支,NLP旨在通过预测文本生成或在线聊天机器人等应用程序来解密和分析人类语言。在计算方面,BERT体积庞大,通常需要大多数用户无法获得的超级计算能力。访问BERT的中奖彩票可以公平地进行比赛,从而可能使更多用户在智能手机上开发有效的NLP工具-无需大锤。
弗兰克勒说:“我们正在达到必须使这些模型更精简,更高效的地步。”他补充说,这一进步有一天可能会“减少NLP的准入门槛”。
麻省理工学院计算机科学与人工智能实验室的迈克尔·卡宾小组的博士生Frankle是该研究的共同作者,该研究将于下个月在神经信息处理系统会议上发表。德克萨斯大学奥斯汀分校的陈天龙是该论文的主要作者,其中包括得克萨斯州A&M的合作者Wang Zhangyang Wang,以及所有MIT-IBM Watson AI Lab的合作者Chang Shiyu,Sisi Liu和Zhang Zhang 。
您今天可能已经与BERT网络进行了互动。这是Google搜索引擎的基础技术之一,自Google于2018年发布BERT以来,它一直引起研究人员的兴奋。BERT是一种创建神经网络的方法,即使用分层节点或“神经元”的算法来学习执行神经网络。通过培训大量实例来完成任务。BERT是通过反复尝试填写写作段落中遗漏的单词来进行训练的,它的功能在于此初始训练数据集的庞大大小。然后,用户可以将BERT的神经网络微调至特定任务,例如构建客户服务聊天机器人。但是争吵的BERT需要大量的处理能力。
“如今,标准的BERT模型(花园品种)具有3.4亿个参数,” Frankle说,并补充说,这个数字可以达到10亿。对如此庞大的网络进行微调可能需要一台超级计算机。“这简直太贵了。这远远超出了您或我的计算能力。”
陈同意。他说,尽管BERT迅速流行,但此类模型“仍受庞大的网络规模的影响”。幸运的是,“彩票假设似乎是一种解决方案。”
为了削减计算成本,Chen和他的同事试图找出隐藏在BERT中的较小模型。他们通过迭代修剪整个BERT网络的参数进行了实验,然后将新子网的性能与原始BERT模型的性能进行了比较。他们对一系列NLP任务进行了此比较,从回答问题到填充句子中的空白词。
研究人员发现,根据任务的不同,成功的子网比最初的BERT模型瘦40%至90%。此外,他们能够在运行任何针对任务的微调之前识别出那些中奖彩票,这一发现可以进一步降低NLP的计算成本。在某些情况下,为一项任务选择的子网可以重新用于另一项任务,尽管Frankle指出这种可移植性并不普遍。尽管如此,弗兰克勒还是对该小组的结果感到满意。
他说:“我什至为这项工作感到震惊。” “这不是我想当然的事情。我期待比我们得到的结果更混乱。”
Facebook AI Research的科学家阿里·莫尔科斯(Ari Morcos)认为,在BERT模式中发现中奖彩票是“令人信服的”。“这些模型正在变得越来越普遍,” Morcos说。“因此,了解彩票假设是否成立很重要。” 他补充说,这一发现可能使类似BERT的模型使用更少的计算能力运行,“鉴于这些超大型模型当前的运行成本非常高,这可能会产生很大的影响。”
弗兰克(Frankle)同意。他希望这项工作可以使BERT更加易于使用,因为它逆转了NLP模型不断增长的趋势。他说:“我不知道我们可以使用这些超级计算机式的计算来做多大的事情。” “我们将不得不减少进入壁垒。” 确定一个精简的,赢得彩票的子网可以做到这一点-允许缺乏Google或Facebook计算能力的开发人员仍然可以执行最先进的NLP。弗兰克勒说:“希望这将降低成本,这将使每个人都更容易使用…………那些只有一台笔记本电脑的小家伙。” “对我来说,真是令人兴奋。”
标签: