30
/de/
AIzaSyAYiBZKx7MnpbEhh9jyipgxe19OcubqV5w
April 1, 2024
3276543
291921
1

27 März 2015 Jahr - Adriana Romero: FitNets: Hints for Thin Deep Nets, arxiv, 2015

Beschreibung:

提出逐层训练的方法,先训练模型的前半部分,然后一次增加训练.

虽然深度有助于提高网络性能,但由于更深层次的网络往往更具非线性,因此基于梯度的训练也变得更加困难。最近提出的知识蒸馏方法旨在获得小而快速的执行模型,它表明学生网络可以模仿大教师网络或网络集合的软输出。在本文中,我们扩展了这一思想,使学生的培训比教师更深入和更薄,不仅使用输出,还使用教师学习的中间表示作为提示,以改进学生的培训过程和最终表现。由于学生中间隐藏层一般小于教师中间隐藏层,引入附加参数,将学生隐藏层映射到教师隐藏层的预测。这使得我们能够训练出更深入的学生,从而更好地概括或更快地运行,这是一个由所选学生能力控制的权衡。例如,在CIFAR-10上,一个参数少10.4倍的深度学生网络比一个更大、最先进的教师网络要好。

Zugefügt zum Band der Zeit:

Datum:

27 März 2015 Jahr
Jetzt
~ 9 years ago