ガウス過程による分類（２） - 機械学習に詳しくなりたいブログ

概要

前回の以下の記事の続きです。 www.iwanttobeacat.com

前回の記事までのまとめ

訓練データ $\mathbf{x}=\{\mathbf{x}_{1},\cdots,\mathbf{x}_{N} \}$ 、 $\mathbf{t}_{N}=(t_1,\cdots,t_{N})^{T}$ が与えられたとき、新たな入力 $\mathbf{x}_{N+1}$ に対する $t_{N+1}=1$ の確率、すなわち $p(t_{N+1}=1 | \mathbf{t}_{N},\mathbf{x},\mathbf{x}_{N+1} )$ を求めることが目標です。そしてこれは、いくつかの式変形によって以下のように表せました。

$\displaystyle p(t_{N+1}=1 | \mathbf{t}_{N} )= \int p(t_{N+1}=1 |a_{N+1} )p(a_{N+1}|\mathbf{t}_{N}) d a_{N+1} \tag{1}$

$p(a_{N+1}|\mathbf{t}_{N})$ の計算

式(1)において、 $p(t_{N+1}=1|a_{N+1})=\sigma(a_{N+1})$ ですから、式(1)右辺の前半は簡単に求まりますが、 $p(a_{N+1}|\mathbf{t}_{N})$ は解析的に求められず、これを何とかしていかなくてはなりません。

確率の周辺化の式を用いて、*1

$\displaystyle p(a_{N+1}|\mathbf{t}_{N}) = \int p(a_{N+1},\mathbf{a}_{N}|\mathbf{t}_{N}) d\mathbf{a}_{N} \tag{2}$

と変形し、さらにベイズの定理により、*2

$\displaystyle 式(2)=\frac{1}{p(\mathbf{t}_{N})} \int p(a_{N+1},\mathbf{a}_{N})p(\mathbf{t}_{N}|a_{N+1},\mathbf{a}_{N}) d\mathbf{a}_{N} \tag{3}$

です。そして確率の乗法定理により、*3

$\displaystyle 式(3)=\frac{1}{p(\mathbf{t}_{N})} \int p(a_{N+1}|\mathbf{a}_{N})p(\mathbf{a}_{N})p(\mathbf{t}_{N}|a_{N+1},\mathbf{a}_{N}) d\mathbf{a}_{N} \tag{4}$

です。ここで $a_{N+1}$ と $\mathbf{t}_{N}$ は独立ですから条件から取り除くことができ、

$\displaystyle 式(4)=\frac{1}{p(\mathbf{t}_{N})} \int p(a_{N+1}|\mathbf{a}_{N})p(\mathbf{a}_{N})p(\mathbf{t}_{N}| \mathbf{a}_{N}) d\mathbf{a}_{N} \tag{5}$

です。そしてベイズの定理の式(1)より、 $p(\mathbf{a}_{N}) p(\mathbf{t}_{N} | \mathbf{a}_{N}) = p(\mathbf{t}_{N})p(\mathbf{a}_{N} | \mathbf{t}_{N})$ ですから、以上より

$\displaystyle \displaystyle p(a_{N+1}|\mathbf{t}_{N}) = \int p(a_{N+1}|\mathbf{a}_{N}) p(\mathbf{a}_{N}|\mathbf{t}_{N}) d\mathbf{a}_{N} \tag{6}$

となります。

$p(a_{N+1}|\mathbf{a}_{N})$ の計算

ここでまずは式(6)の $p(a_{N+1}|\mathbf{a}_{N})$ を考えます。

$a$ はガウス過程という前提条件でした。 $\mathbf{y}$ がガウス過程に従うとき、 $p(\mathbf{y}) = N(\mathbf{y}|\mathbf{0},\alpha^{-1}\mathbf{K})$ と書けましたから*4、 $a_{N+1}$ もこの形で書くことができるはずです。ここで $\alpha$ の定数倍をカーネル関数の中に含めれば