機械学習に詳しくなりたいブログ

機械学習や数学について勉強した内容を中心に書きます。100%趣味です。記事は数学的に厳密でなかったり誤りを含んでいるかもしれません。ご指摘頂ければ幸いです。

条件付き確率、同時確率、周辺確率

条件付き確率、同時確率

確率変数X,Yに対して、条件付き確率P(X|Y)は、同時確率P(X,Y)を使って


\displaystyle P(X|Y) = \frac{P(X,Y)}{P(Y)} \tag{1}

で定義される。分母をはらえば、同時確率P(X,Y)


P(X,Y) = P(X|Y)P(Y) \tag{2}

となり、これは確率の乗法定理と呼ばれる。3変数以上になっても同様に


\begin{eqnarray*}
\displaystyle P(X,Y,Z) &=& P(X|Y,Z)P(Y,Z) \tag{3} \\
&=&P(X|Y,Z)P(Y|Z)P(Z) \tag{4} 
\end{eqnarray*}

と展開していける。条件付き同時確率 P(X,Y|Z)は、


\begin{eqnarray*}
\displaystyle P(X,Y|Z) &=& \frac{P(X,Y,Z)}{P(Z)} \tag{5} \\
&=& \frac{P(X|Y,Z)P(Y,Z)}{P(Z)} \tag{6} \\
&=& \frac{P(X|Y,Z)P(Y|Z)P(Z)}{P(Z)} \tag{7} \\
&=& P(X|Y,Z)P(Y|Z) \tag{8} 
\end{eqnarray*}

と展開できる。

2変数程度ならベン図を書いたり、確率の解釈から式の意味がわかりますが、多くの確率変数がからみあってくると式から直感的に解釈するのは難しい、、、。定理定義を使って式変形したらこうなるんだから、そうなんでしょう、と割り切ったほうが良いかもしれない。

周辺確率

 P(X),P(Y)のような単独の確率を周辺確率と呼ぶ。また、P(X,Y)のような同時確率から一方の確率変数を取り除き、周辺確率を求めることを周辺化と呼び、以下のような式で求められます。


\displaystyle P(X) = \sum_{Y}P(X,Y) \tag{9}

確率密度関数の場合だと、


\displaystyle P(x) = \int_{y}P(x,y)dy \tag{10}

となります。この式(10)は、右辺から左辺を求めるときはすんなり頭に入ってきますが、左辺を右辺に変形するのは慣れていないとちょっと戸惑う。 また、式(2)と式(10)より、


\displaystyle P(x) = \int_{y}P(x|y)P(y)dy \tag{11}

です。