10 März 2015 Jahr - Geoffrey Hinton: Distilling the Knowledge in a Neural Network, arxiv, 2015

Beschreibung:

提高几乎所有机器学习算法性能的一个非常简单的方法是在相同的数据上训练许多不同的模型，然后对它们的预测进行平均。不幸的是，使用一整套模型进行预测是很麻烦的，而且计算成本可能太高，不允许部署到大量用户，尤其是当单个模型是大型神经网络时。Caruana和他的合作者已经证明，可以将集成中的知识压缩到一个更容易部署的单一模型中，并且我们使用不同的压缩技术进一步开发这种方法。我们在mnist上取得了一些令人惊讶的结果，我们表明，通过将模型集合中的知识提取为单个模型，我们可以显著地改进大量使用的商业系统的声学模型。我们还介绍了一种新的集成类型，它由一个或多个完整模型和许多专业模型组成，这些模型学习区分完整模型混淆的细粒度类。与混合专家不同，这些专家模型可以快速并行地进行培训。

Zugefügt zum Band der Zeit:

knowledge transfer/ distillation

By龚成

30 Aug 2019

501

Datum:

10 März 2015 Jahr

Jetzt

~ 10 years ago