最小二乗法による線形回帰において、訓練データ数に対して近似式の表現能力が高すぎると過学習が発生します。(参考:線形回帰を最小二乗法で解く) それに対し、係数が大きくなることに対してペナルティを与えることで過学習を防止する方法があります。(参考:正則化最小二乗法) 今回は、そのペナルティ(正則化項)を加えることの数学的な意味を確認したいと思います。
正則化最小二乗法で書いた通り、正則化項は
で表されます。ここで、の制約条件において、二乗和誤差
の最小値を求める問題を考えます。とすると、制約条件および二乗和誤差は凸関数ですから、不等式制約におけるラグランジュの未定乗数法(KKT条件)より、
の条件の元で
を解けば、解が求められます。*1
さて、式(6)においてはに依存しませんから、これをで偏微分してみると、二乗和誤差に正則化項を加えた
をで偏微分するのと同じ式が得られます。今、正則化項においてであることを想定していますから、式(3)の条件よりです。つまりの制約条件で二乗和誤差を最小化しているのと等しいことがわかります。なおラグランジュの未定乗数法ではが未知数であったのに対し、これは制約条件を未知数としており、任意に設定するによってが決まります。を先に決めたほうが意味としてはわかりやすいように思いますが、計算のしやすさからでしょうか。確かに正則化項にかかる係数を設定するほうが楽なような気もします。
さて、正則化項においてのときは、それぞれlasso回帰、ridge回帰と名前が付いているようです。特にlasso回帰では疎な解(いくつかの係数が0になるような解)が求められます。これは以下の図から直感的にわかります。係数が2種類の場合で、それぞれ縦軸、横軸にとっています。緑の線がの境界で、円は二乗和誤差の等高線です。等高線の中心が、正則化項がないときの解になります。
確かに境界の先端、つまり一方の係数が0の点で解が求まる可能性が高そうですね。正則化についてWebで調べていると、この図は載っていても、なぜこの境界上で解が求められるのか?の説明はほとんどありません。言わなくてもわかるでしょってことなんでしょうが、初学者にとってはなかなか厳しいです、、、。
*1:符号は式(7)と揃えるため、不等式制約におけるラグランジュの未定乗数法(KKT条件)の説明から変えています。また、求める解が最大ではなく最小であることにも注意