aug 10, 2012 - 作为约束的范数惩罚 Improving neural networks by preventing co-adaptation of feature detectors. Hinton, G. E 2012

Description:

花书里的内容：
有时候，我们希望使用显式的限制，而不是惩罚。如果我们知道什么样的 k 是合适的，而不想花时间寻找对应于此 k 处的 α 值，这会非常有用。
另一个使用显式约束和重投影而不是使用惩罚强加约束的原因是惩罚可能会导致目标函数非凸而使算法陷入局部极小 (对应于小的 θ）。
最后，因为重投影的显式约束还对优化过程增加了一定的稳定性，所以这是另一个好处。当使用较高的学习率时，很可能进入正反馈，即大的权重诱导大梯度，然后使得权重获得较大更新。

Hinton et al. (2012c) 尤其推荐由Srebro and Shraibman (2005) 引入的策略：约
束神经网络层的权重矩阵每列的范数，而不是限制整个权重矩阵的 Frobenius 范数。
分别限制每一列的范数可以防止某一隐藏单元有非常大的权重。如果我们将此约束
转换成 Lagrange 函数中的一个惩罚，这将与 L
2 权重衰减类似但每个隐藏单元的权
重都具有单独的 KKT 乘子。每个 KKT 乘子分别会被动态更新，以使每个隐藏单
元服从约束。在实践中，列范数的限制总是通过重投影的显式约束来实现。

Added to timeline:

Regularization

By李纪

13 Nov 2019

388

Date:

aug 10, 2012

Now

~ 12 years ago