概要
線形回帰をMAP推定で解くで、ベイズの定理を使ってパラメータの事後分布を求めましたが、解としては事後確率を最大とする1点を採用するだけで、求められるものは1つの回帰曲線でした。今回は、パラメータが事後分布に従った確率で生じることを利用し、予測値の分布を求めていきます。予測値の分布とは以下のグラフのようなものです。赤色の部分は観測される確率が高い領域、青の部分は観測される確率の低い領域を表します。青い点は取得済みの訓練データです。
予測分布の導出
具体的に見ていきます。まず予測分布とは、
です。訓練データが観測済みで、新たなが入力された時の出力の確率分布という意味です。そのままですね。出力値はこれまでで表していたのですが、参考書はを使っているのでそれに倣います。さて、この式を条件付き確率、同時確率、周辺確率の式(10)を使えば、以下のように変形できます。
右辺は条件付き確率、同時確率、周辺確率の式(8)のように変形できることを使って、
となります。定理だけではここまでしか変形できませんが、ここで各変数の関係を考えてみます。まずとは、モデルのパラメータと新たな入力ですから独立です。そして予測値は、が与えられた条件下においてと条件付き独立です。つまりが決定してれば、訓練データが何であったか?という条件は予測値に影響しないということです。は訓練データから決まるのだから、まあそうですよね。以上を使って、式(3)から不要な条件を取り除くと、
と書けます。右辺の各項は変数の意味からも理解できます。は、予測値はモデルパラメータと入力から決まるということ、はモデルのパラメータは訓練データによって決まるということ、それぞれ当たり前のことを表しています。そして式全体としては周辺化の計算ですが、言葉で説明を加えるなら、「全てのについて、その事後確率の重み付けをしながら分布を積分している」と言えると思います。つまりの事後確率が高いところではも高い値をとります。こうしてベイズ推定による予測分布が求まります。この積分は解析的に求まる問題なら良いですが、数値計算では計算量が多くなってしまう問題があるようです。
さて、の分布はどういうものであったかと言うと、真値からの誤差が加わっているものと仮定していました。そしてパラメータの事後分布はMAP推定の解の導出より、でした。真値をとすれば、
と書けます。
ここで多変量正規分布に対する以下の関係を使います。
であるとき、
です。導出は難しくないのですが数式を書くのが大変なので、今回は公式として使います。(パターン認識と機械学習(上) C.M.ビショップ著 の第2章に載っています)
この関係式において、、、、、、とすれば、
と求められます。式(4)は入力と訓練データの条件が入っていて式(6)~(8)との対応がわかりづらいです。式(6)~(8)におけるをそれぞれに対応させています。の条件を除いて考えれば対応が見えてくると思います。
はMAP推定で求めるの解でしたから、予測分布はMAP推定値を中心として分布していることがわかります。
以下の記事で実際に予測分布をプロットしてみました。