機械学習に詳しくなりたいブログ

機械学習や数学について勉強した内容を中心に書きます。100%趣味です。記事は数学的に厳密でなかったり誤りを含んでいるかもしれません。ご指摘頂ければ幸いです。

多変量正規分布

確率変数 X,Yに対して、


\begin{eqnarray*}
\mathrm{Cov}(X,Y) &=& E[(X-E[X])(Y-E[Y])] \tag{1} \\ 
 &=& E[XY]-E[X]E[Y] \tag{2} 
\end{eqnarray*}

を、 X,Yの共分散といいます。また、 X,Yの標準偏差を\sigma_X, \sigma_Yとすれば、


\displaystyle \rho = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y} \tag{3}

 X,Yの相関係数といいます。相関係数は共分散の値を[-1,1]の範囲に正規化したものであると考えることができます。式(1)の定義からわかるように、 X-E[X]  Y-E[Y] が同符号の傾向があるとき共分散が正になり、 X-E[X] Y-E[Y]の符号が反対である傾向があるとき、共分散が負になります。つまり Xの増加に伴って Yも増加する傾向にあるなら相関係数が正、 Xの減少に伴って Yも減少する傾向にあるなら相関係数が負です。共分散が0のとき、相関係数が0であり、無相関になります。逆に言えば、共分散が大きいということは同じような値をとりやすいということです。

共分散を多変量の確率変数に一般化したものを分散共分散行列といい、以下の式で表されます。*1


  \Sigma 
= \left(
    \begin{array}{cccc}
      \mathrm{Cov}(X_0,X_0) & \mathrm{Cov}(X_0,X_1) & \ldots & \mathrm{Cov}(X_0,X_N) \\
      \mathrm{Cov}(X_1,X_0) & \mathrm{Cov}(X_1,X_1) & \ldots & \mathrm{Cov}(X_1,X_N) \\
      \vdots & \vdots & \ddots & \vdots \\
      \mathrm{Cov}(X_N,X_0) & \mathrm{Cov}(X_N,X_1) & \ldots & \mathrm{Cov}(X_N,X_N)
    \end{array}
  \right)
 \tag{4}

ここで共分散の定義式より、 \mathrm{Cov}(X_a,X_b) \mathrm{Cov}(X_b,X_a)は等しいことがわかりますから、 \Sigma = \Sigma^{T}です。また、各々の確率変数が全て無相関であるなら対角行列になります。

分散共分散行列を用いて、n次元の多変量正規分布は以下のように表されます。


\displaystyle f(\mathbf{x})= \frac{1}{\sqrt{(2\pi)^{n} \det\Sigma}}\exp\left\{ -\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1}(\mathbf{x} - \boldsymbol{\mu}) \right\} \tag{5}

ここで \mathbf{x} = (x_{0}, \cdots ,x_{n-1})^{T}  \boldsymbol{\mu} = (\mu_{0}, \cdots ,\mu_{n-1})^{T} です。指数部が2次形式になっていることが、多変量正規分布を扱う計算をするときのポイントになります。また別途記事にします。

いま、2変数で互いに無相関である、つまり

 \mathbf{x} = (x_{0}, x_{1})^{T} , \boldsymbol{\mu} = (\mu_{0},\mu_{1})^{T} ,
\Sigma 
= \left(
    \begin{array}{cc}
      \sigma_{0}^2 & 0 \\
      0 & \sigma_{1}^2
    \end{array}
  \right)

であるとき、式(5)に代入して計算すれば


\displaystyle f(\mathbf{x}) = \frac{1}{2\pi\sigma_0\sigma_1}\exp\left\{  -\frac{(x_0-\mu_0)^2}{2\sigma_0^2} - \frac{(x_1-\mu_1)^2}{2\sigma_1^2} \right\} \tag{6}

になります。これは2つの正規分布の積の形になっていることがわかります。

分散共分散行列を変化させて2変数の多変量正規分布をプロットしてみました。赤色が確率密度が高く、青色はその逆です。

左から、分散共分散行列が


 \left(
    \begin{array}{cc}
      1 & 0 \\
      0 & 1
    \end{array}
  \right)
,
 \left(
    \begin{array}{cc}
      1 & 0.7 \\
      0.7 & 1
    \end{array}
  \right)
,
 \left(
    \begin{array}{cc}
      1 & -0.7 \\
      -0.7 & 1
    \end{array}
  \right)

のときのグラフです。グラフから無相関、正の相関、負の相関が見て取れます。

*1:分散共分散行列は半正定値行列になります。参考:分散共分散行列の半正定値性