ガウス過程による回帰（１） - 機械学習に詳しくなりたいブログ

概要

以下の記事で線形回帰において $y$ の事前分布はカーネル関数を使って表すことができ、そしてガウス過程となっていることを確認しました。

www.iwanttobeacat.com

今回は、ガウス過程を使って回帰問題を考えます。つまり、訓練データをもとに新たな入力に対する予測値をガウス過程を使って考えていきます。

ガウス過程による回帰

線形回帰では、係数 $\mathbf w$ を最小二乗法や最尤推定で求めたり、係数の事前分布を設定してMAP推定しましたが、ガウス過程のモデルでは係数 $\mathbf w$ が式から消されており存在しません。ガウス過程で見たように、 $\mathbf y$ は $\mathbf x$ のカーネル関数から求められるガウス過程でした。ここで、新たな入力 $\mathbf{x}_{N+1}$ を加えたとしても、 $\mathbf y$ はやはりガウス過程に従うはずです。このことを使って新たな入力に対する予測値を求めていきます。

訓練データ $t$ には、理論値 $y$ に誤差 $\epsilon$ が加わっているとすると

$t_n = y_n + \epsilon_n \tag{1}$

です。ここで誤差 $\epsilon$ は $N(\epsilon|0,\beta^{-1})$ の正規分布に従うとすれば

$p(t_n|y_n) = N(t_n|y_n, \beta^{-1}) \tag{2}$

と書けます。 $n=1,\cdots,N$ のデータをまとめて表せば、各誤差は互いに独立ですから

$p(\mathbf{t}|\mathbf{y}) = N(\mathbf{t}|\mathbf{y}, \beta^{-1}\mathbf{I}) \tag{3}$

となります。なおここで $p(\mathbf{y})$ はガウス過程で確認したように、

$p(\mathbf{y}) = N(\mathbf{y}|\mathbf{0}, \mathbf{K}) \tag{4}$

です。（ $\alpha$ の定数倍はカーネル関数の中に含まれているとします。）

さて、線形回帰をベイズ推定で解く（１）予測分布の導出でも使いましたが、正規分布に対する以下の公式を使います。

$\begin{eqnarray*} p(\mathbf x) &=& N(\mathbf x | \mathbf \mu, \Lambda^{-1}) \tag{5} \\ p(\mathbf y | \mathbf x) &=& N(\mathbf y | \mathbf A \mathbf x + \mathbf b, \mathbf{L}^{-1}) \tag{6} \end{eqnarray*}$

であるとき、

$p(\mathbf y) = N(\mathbf y | \mathbf A \mathbf \mu + \mathbf b , \mathbf{L}^{-1} + \mathbf A \mathbf \Lambda^{-1} \mathbf A^{T}) \tag{7}$

$\mathbf{\Lambda}^{-1}=\mathbf{K}$ 、 $\mathbf{\mu} = \mathbf{0}$ 、 $\mathbf{A}=\mathbf{I}$ 、 $\mathbf{b}=\mathbf{0}$ 、 $\mathbf{L}^{-1}=\beta^{-1}\mathbf{I}$ に対応させれば、式(3)と式(4)より

$p(\mathbf{t}) = N(\mathbf{t} | \mathbf{0}, \mathbf{C}_N) \tag{8}$

となり、これで訓練データの分布がわかりました。ここで $\mathbf{C}_N$ は $\beta^{-1}\mathbf{I}+\mathbf{K}$ です。 $\mathbf{y}$ の分散が $\mathbf{K}$ で、誤差の分散が $\beta^{-1} \mathbf{I}$ でしたから、 $\mathbf{y}$ と $\epsilon$ の和である $\mathbf{t}$ の分散が $\beta^{-1}\mathbf{I}+\mathbf{K}$ となるのは、分散の加法性からも明らかです。

さて、回帰分析の目的は、訓練データが得られたあと、新たな入力 $\mathbf{x}_{N+1}$ に対する $t_{N+1}$ を予測することです。つまり $p(t_{N+1}|\mathbf t)$ を求めることです。これを求めるためにまず $p(t_{N+1},\mathbf{t})$ を計算します。*1