正則化項（罰金項）の意味 - 機械学習に詳しくなりたいブログ

最小二乗法による線形回帰において、訓練データ数に対して近似式の表現能力が高すぎると過学習が発生します。（参考：線形回帰を最小二乗法で解く）それに対し、係数 $\mathbf w$ が大きくなることに対してペナルティを与えることで過学習を防止する方法があります。（参考：正則化最小二乗法）今回は、そのペナルティ（正則化項）を加えることの数学的な意味を確認したいと思います。

正則化最小二乗法で書いた通り、正則化項は

$\displaystyle\frac{\lambda}{2} \sum_{j=1}^{M}|w_j|^q \tag{1}$

で表されます。ここで、 $\displaystyle \frac{1}{2} \left(\sum_{j=1}^{M}|w_j|^q - \eta \right)\leq 0$ の制約条件において、二乗和誤差

$E (\mathbf{w})= \displaystyle \frac{1}{2} \sum_{i=1}^{N}(y_i-t_i)^2 \tag{2}$

の最小値を求める問題を考えます。 $\displaystyle g(\mathbf w) = \frac{1}{2} \left(\sum_{j=1}^{M}|w_j|^q - \eta \right)\leq 0$ とすると、制約条件および二乗和誤差は凸関数ですから、不等式制約におけるラグランジュの未定乗数法（KKT条件）より、

$\lambda g(\mathbf{w}) = 0 \tag{3}$ $\lambda \ge 0 \tag{4}$ $g(\mathbf{w}) \leq 0 \tag{5}$

の条件の元で

$\displaystyle L(\mathbf{w},\lambda) = \frac{1}{2} \sum_{i=1}^{N}(y_i-t_i)^2 + \frac{\lambda}{2} \left(\sum_{j=1}^{M}|w_j|^q - \eta \right) \tag{6}$

を解けば、解が求められます。*1

さて、式(6)において $\eta$ は $\mathbf w$ に依存しませんから、これを $\mathbf w$ で偏微分してみると、二乗和誤差に正則化項を加えた

$\displaystyle E (\mathbf{w})= \frac{1}{2} \sum_{i=1}^{N}(y_i-t_i)^2 + \frac{\lambda}{2} \sum_{j=1}^{M}|w_j|^q \tag{7}$

を $\mathbf w$ で偏微分するのと同じ式が得られます。今、正則化項において $\lambda \gt 0$ であることを想定していますから、式(3) $\lambda g(\mathbf{w}) = 0$ の条件より $g(\mathbf{w}) = 0$ です。つまり $\displaystyle \sum_{j=1}^{M}|w_j|^q =\eta$ の制約条件で二乗和誤差を最小化しているのと等しいことがわかります。なおラグランジュの未定乗数法では $\lambda$ が未知数であったのに対し、これは制約条件を未知数としており、任意に設定する $\lambda$ によって $\eta$ が決まります。 $\eta$ を先に決めたほうが意味としてはわかりやすいように思いますが、計算のしやすさからでしょうか。確かに正則化項にかかる係数 $\lambda$ を設定するほうが楽なような気もします。

さて、正則化項において $q=1,q=2$ のときは、それぞれlasso回帰、ridge回帰と名前が付いているようです。特にlasso回帰では疎な解(いくつかの係数が0になるような解)が求められます。これは以下の図から直感的にわかります。係数 $\mathbf w$ が2種類の場合で、それぞれ縦軸、横軸にとっています。緑の線が $\displaystyle \sum_{j=1}^{2}|w_j| =\eta$ の境界で、円は二乗和誤差の等高線です。等高線の中心が、正則化項がないときの解になります。