機械学習に詳しくなりたいブログ

機械学習や数学について勉強した内容を中心に書きます。100%趣味です。記事は数学的に厳密でなかったり誤りを含んでいるかもしれません。ご指摘頂ければ幸いです。

ベイズの定理

条件付き確率、同時確率、周辺確率の式(2)、確率の乗法定理より、


P(X,Y) = P(X|Y)P(Y) = P(Y|X)P(X) \tag{1}

ですから、


\displaystyle P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)} \tag{2}

が成り立ちます。これをベイズの定理と呼びます。これはベイズ統計において成り立つ定理ではなく、確率の公理から導かれるものですので、主観確率でも客観確率でも使うことができます。

ベイズ主義の立場においては、 P(X)を事前確率(事前分布)、 P(Y|X)を尤度、 P(X|Y)を事後確率(事後分布)と呼びます。分母の P(Y)は確率を [0,1]の区間に正規化するためのものです。

この定理を使うことにより、 Yが生じたという情報を得て、事前確率 P(X)から事後確率 P(X|Y)を得ることができます。このような処理を繰り返して事後確率を更新していくことをベイズ改訂と呼びます。と、言葉で書いてもなかなかわかりづらいです。例を示してみます。ベイズの定理を以下のように事前確率と尤度にわけて考えます。


\displaystyle P(X|Y) = P(X) \times \frac{P(Y|X)}{P(Y)} \tag{3}

例えば、 P(X)をAさんが男性である確率、 P(Y)を身長が160cm以上である確率とするならば、Aさんに関する情報が何もない状態では事前確率\displaystyle P(X)=\frac{1}{2}でしょう。せいぜい、人類の男女比の統計から僅かにどちらかに寄せるくらいです。次に \displaystyle\frac{P(Y|X)}{P(Y)} の項を考えてみます。この項は、 Xという条件において P(Y)が起こりやすくなるなら1より大きくなり、起こりにくくなるなら1より小さくなります。無作為にピックアップした人の身長が160cm以上である確率よりも、男性の中からピックアップしたほうが確率が高いというだけのことです。いま、Aさんが身長160cm以上であることがわかったとすると、 \displaystyle\frac{P(Y|X)}{P(Y)} は1より大きくなりますから、事後確率 P(X|Y)は事前確率\displaystyle P(X)=\frac{1}{2}よりも大きい値に改訂されます。つまり情報を得て、男性である確信度が増したということです。そしてこれを再び事前確率として新たな情報により更新していきます。例えば今度は年齢が90歳であることがわかったとすると、女性のほうが長寿ですから逆に男性の確信度が下がります。*1

と、たったこれだけのことなのですが、「尤度」という概念は理解できるまではけっこうややこしく、特に確率分布をベイズの定理に当てはめて考えるときは混乱してしまいました。(参考:線形回帰を最尤推定で解く(尤度とは?)

ベイズの定理を使った計算例:ベイズ推定 よくある例題

*1:今回はイメージだけです。もちろん実際に計算するときは具体的な統計値がわかっていないと計算できません。