27 März 2015 Jahr - Adriana Romero: FitNets: Hints for Thin Deep Nets, arxiv, 2015

Beschreibung:

提出逐层训练的方法,先训练模型的前半部分,然后一次增加训练.

虽然深度有助于提高网络性能，但由于更深层次的网络往往更具非线性，因此基于梯度的训练也变得更加困难。最近提出的知识蒸馏方法旨在获得小而快速的执行模型，它表明学生网络可以模仿大教师网络或网络集合的软输出。在本文中，我们扩展了这一思想，使学生的培训比教师更深入和更薄，不仅使用输出，还使用教师学习的中间表示作为提示，以改进学生的培训过程和最终表现。由于学生中间隐藏层一般小于教师中间隐藏层，引入附加参数，将学生隐藏层映射到教师隐藏层的预测。这使得我们能够训练出更深入的学生，从而更好地概括或更快地运行，这是一个由所选学生能力控制的权衡。例如，在CIFAR-10上，一个参数少10.4倍的深度学生网络比一个更大、最先进的教师网络要好。

Zugefügt zum Band der Zeit:

knowledge transfer/ distillation

By龚成

30 Aug 2019

497

Datum:

27 März 2015 Jahr

Jetzt

~ 10 years ago