30
/de/
AIzaSyAYiBZKx7MnpbEhh9jyipgxe19OcubqV5w
April 1, 2024
3276883
291921
1

12 Mai 2018 Jahr - Tommaso Furlanello: Born Again Neural Networks, 2018

Beschreibung:

知识蒸馏(Kd)包括将知识从一个机器学习模型(教师)转移到另一个机器学习模型(学生)。一般来说,教师是一个高能力的模范,表现出色,而学生则更紧凑。通过传授知识,人们希望从学生的紧凑性中获益。%我们希望有一个紧凑的模型,其性能接近老师的水平。我们从一个新的角度来研究kd:我们不是压缩模型,而是训练学生参数化与老师相同。令人惊讶的是,这些“重生网络”(BANs)在计算机视觉和语言建模任务方面都显著优于教师。我们对基于densenets的BAN的实验通过验证错误,证明了CIFAR-10(3.5%)和CIFAR-100(15.5%)数据集的最先进性能。另外的实验探索了两个蒸馏目标:(i)由教师max(cwtm)加权的置信度和(ii)具有排列预测的暗知识(dkpp)。这两种方法都阐明了kd的基本组成部分,展示了教师输出在预测和非预测课程中的作用。我们对具有不同能力的学生进行了实验,重点关注学生凌驾于教师之上的探索不足的案例。我们的实验显示了在densenet和resnet之间向任意方向传输知识的显著优势。

Zugefügt zum Band der Zeit:

Datum:

12 Mai 2018 Jahr
Jetzt
~ 6 years ago