機械学習に詳しくなりたいブログ

機械学習や数学について勉強した内容を中心に書きます。100%趣味です。記事は数学的に厳密でなかったり誤りを含んでいるかもしれません。ご指摘頂ければ幸いです。

条件付き確率、同時確率、周辺確率

条件付き確率、同時確率

確率変数X,Yに対して、条件付き確率P(X|Y)は、同時確率P(X,Y)を使って


\displaystyle P(X|Y) = \frac{P(X,Y)}{P(Y)} \tag{1}

で定義される。分母をはらえば、同時確率P(X,Y)


P(X,Y) = P(X|Y)P(Y) \tag{2}

となり、これは確率の乗法定理と呼ばれる。ベイズの定理はこの式から導かれます。3変数以上になっても同様に


\begin{eqnarray*}
\displaystyle P(X,Y,Z) &=& P(X|Y,Z)P(Y,Z) \tag{3} \\
&=&P(X|Y,Z)P(Y|Z)P(Z) \tag{4} 
\end{eqnarray*}

と展開していける。条件付き同時確率 P(X,Y|Z)は、


\begin{eqnarray*}
\displaystyle P(X,Y|Z) &=& \frac{P(X,Y,Z)}{P(Z)} \tag{5} \\
&=& \frac{P(X|Y,Z)P(Y,Z)}{P(Z)} \tag{6} \\
&=& \frac{P(X|Y,Z)P(Y|Z)P(Z)}{P(Z)} \tag{7} \\
&=& P(X|Y,Z)P(Y|Z) \tag{8} 
\end{eqnarray*}

と展開できる。

2変数程度ならベン図を書いたり、確率の解釈から式の意味がわかりますが、多くの確率変数がからみあってくると式から直感的に解釈するのは難しい、、、。定理定義を使って式変形したらこうなるんだから、そうなんでしょう、と割り切ったほうが良いかもしれない。

周辺確率

 P(X),P(Y)のような単独の確率を周辺確率と呼ぶ。また、P(X,Y)のような同時確率から一方の確率変数を取り除き、周辺確率を求めることを周辺化と呼び、以下のような式で求められます。


\displaystyle P(X) = \sum_{Y}P(X,Y) \tag{9}

例えば日本人を標本空間とし無作為に抽出することを考え、Xを性別の確率変数、Yを年齢の確率変数とすれば、P(X=男性,Y=20)はサンプルが20歳の男性である確率を表します。Yを0歳から200歳まで全て足し合わす、つまり P(X=男性,Y=0)+P(X=男性,Y=1)+,\cdots,+P(X=男性,Y=200)を計算すればP(X=男性)の確率が求められます。

確率密度関数の場合だと、


\displaystyle P(x) = \int_{y}P(x,y)dy \tag{10}

となります。この式(10)は、右辺から左辺を求めるときはすんなり頭に入ってきますが、左辺を右辺に変形するのは慣れていないとちょっと戸惑う。 また、式(2)と式(10)より、


\displaystyle P(x) = \int_{y}P(x|y)P(y)dy \tag{11}

です。

これらは2変数でなくても同様に計算でき、


\displaystyle P(X,Y) = \sum_{Z}P(X,Y,Z) \tag{12}


\displaystyle P(X) = \sum_{Y,Z}P(X,Y,Z) \tag{13}

です。