5 Apr 2018 Jahr - Rohan Anil: Large scale distributed neural network training through online distillation, 2018

Beschreibung:

当与几乎任何基本模型配对时，集成和蒸馏等技术保证了模型质量的提高。然而，由于增加了测试时间成本（用于集成）和培训管道的复杂性（用于蒸馏），这些技术在工业环境中很难使用。在本文中，我们探索了一种蒸馏方法的变体，这种方法使用起来相对简单，因为它不需要复杂的多级设置或许多新的超参数。我们的第一个主张是，在线蒸馏使我们能够使用额外的并行性来适应非常大的数据集，速度大约是原来的两倍。至关重要的是，即使我们已经达到了额外并行性对同步或异步随机梯度下降没有好处的程度，我们仍然可以加快训练速度。两个训练在不相交的数据子集上的神经网络可以通过鼓励每个模型与另一个模型所做的预测一致来共享知识。这些预测可以来自另一个模型的过时版本，因此可以使用很少传输的权重安全地计算它们。我们的第二个主张是，在线蒸馏是一种成本效益高的方法，可以使模型的精确预测具有显著的可重复性。我们支持我们的声明，使用criteo-display-ad-challenge数据集、imagenet和最大的用于神经语言建模的最新数据集的实验，其中包含6×1011个令牌，并基于Web数据的公共爬行存储库。

Zugefügt zum Band der Zeit:

knowledge transfer/ distillation

By龚成

30 Aug 2019

501

Datum:

5 Apr 2018 Jahr

Jetzt

~ 7 years and 2 months ago