ベイズの定理 - 機械学習に詳しくなりたいブログ

$P(X,Y) = P(X|Y)P(Y) = P(Y|X)P(X) \tag{1}$

ですから、

$\displaystyle P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)} \tag{2}$

が成り立ちます。これをベイズの定理と呼びます。これはベイズ統計において成り立つ定理ではなく、確率の公理から導かれるものですので、主観確率でも客観確率でも使うことができます。

ベイズ主義の立場においては、 $P(X)$ を事前確率（事前分布）、 $P(Y|X)$ を尤度、 $P(X|Y)$ を事後確率（事後分布）と呼びます。分母の $P(Y)$ は確率を $[0,1$ ]の区間に正規化するためのものです。

この定理を使うことにより、 $Y$ が生じたという情報を得て、事前確率 $P(X)$ から事後確率 $P(X|Y)$ を得ることができます。このような処理を繰り返して事後確率を更新していくことができます。と、言葉で書いてもなかなかわかりづらいです。例を示してみます。ベイズの定理を以下のように事前確率と尤度にわけて考えます。

$\displaystyle P(X|Y) = P(X) \times \frac{P(Y|X)}{P(Y)} \tag{3}$

例えば、 $P(X)$ をAさんが男性である確率、 $P(Y)$ を身長が160cm以上である確率とするならば、Aさんに関する情報が何もない状態では事前確率 $\displaystyle P(X)=\frac{1}{2}$ でしょう。せいぜい、人類の男女比の統計から僅かにどちらかに寄せるくらいです。次に $\displaystyle\frac{P(Y|X)}{P(Y)}$ の項を考えてみます。この項は、 $X$ という条件において $P(Y)$ が起こりやすくなるなら1より大きくなり、起こりにくくなるなら1より小さくなります。無作為にピックアップした人の身長が160cm以上である確率よりも、男性の中からピックアップしたほうが確率が高いというだけのことです。いま、Aさんが身長160cm以上であることがわかったとすると、 $\displaystyle\frac{P(Y|X)}{P(Y)}$ は1より大きくなりますから、事後確率 $P(X|Y)$ は事前確率 $\displaystyle P(X)=\frac{1}{2}$ よりも大きい値に改訂されます。つまり情報を得て、男性である確信度が増したということです。そしてこれを再び事前確率として新たな情報により更新していきます。例えば今度は年齢が90歳であることがわかったとすると、女性のほうが長寿ですから逆に男性の確信度が下がります。*1