誤差を正規分布と仮定した最尤推定と、最小二乗法は等しいことを既に書きました。(参考:最小二乗法はなぜ二乗和誤差(残差平方和)を計算するのか)今回は解を求めることが目的ではなく、尤度とは何を意味するのかを確認したいと思います。
まず近似のモデルはいつも通り多項式とします。
ここでです。つまり式(1)は、以下のように多項式を簡略に表したものになります。
いま、訓練データが得られたとします。そして観測されたは、真の値に対して平均0、分散の正規分布に従う誤差が加わっているとします。すると誤差は
ですから、これが平均0、分散の正規分布に従うことより
と書けます。正規分布の確率密度関数の形をしていますが、は既に観測済みですから揺らがない値です。これは確率ではなくの尤度といいます。分布がどのような形をしているとが観測されたという事象をよく表すか?を考えます。式(4)の中の未知数はですから、の関数と捉えます。数式は確率密度関数と全く同じですが解釈が違います。確率と解釈するのではなく尤度と解釈することがポイントです。確率ではありませんから、全区間で積分しても1にはなりません。確率密度関数は揺らぐ値を横軸にとり、その値はどういう確率で発生するか?を表しますが、尤度は観測された値は固定で分布のほうを変化させ、どのような分布ならば観測値が尤もらしいか?を考えます。図で表すと以下のようなイメージです。
青色の点が観測されたとします。そして曲線は、をいくつか変化させたときのです。つまり縦軸は尤度です。図から明らかですが、は赤線の分布から発生したと考えるのが尤もらしいといえます。尤度が大きいほど、その分布から発生した可能性が高いといえる、ということです。
さて、線形回帰の最尤推定ではこれを訓練データ数分考えます。図で表すと以下のようなイメージです。
観測値が6点あったとしてそれぞれグラフにしています。を決めると全てのグラフにおける分布の形が決まります。(形というか、中心値が違うだけですが) この図だとは分布の中心ですが、がちょっと外れているので、最適ではないかもしれません。各尤度の積が最大となるが最適解になります。数式にすれば、
となり、これを最大にするを求めます。これは結局二乗和誤差を最小にすることに等しく、計算結果は最小二乗法と同じですから省略します。(参考:最小二乗法の解の導出)