機械学習に詳しくなりたいブログ

機械学習や数学について勉強した内容を中心に書きます。100%趣味です。記事は数学的に厳密でなかったり誤りを含んでいるかもしれません。ご指摘頂ければ幸いです。

確率の定義

ベイズ線形回帰を勉強しようと思っています。そのために必要な知識を遡っていると、確率の定義まで行き着いてしまった。しかも確率は、本来非常に高度な学問であるということを知った。背景に集合論や測度論、ルベーグ積分などがあるんだとか。興味はあるが、理解するのは相当難しそう、、、。まずは今回は勉強した確率の定義のまとめ。

ラプラスの定義(組合せ論的確率)

試行の根元事象がN個あり、それらが同様に確からしいとする。このとき、1つの事象Aの根元事象がR個あれば、事象Aの確率は


\displaystyle P(A) = \frac{R}{N} \tag{1}

と定義される。

これは高校の数学で習う定義ですよね。平たく言えば、サイコロを振ったら6種類の出目があるので、そのうち1つの出目が現れるのは1/6だと。ここで、同様に確からしいっていうのが誤魔化している表現のようです。「同様に確からしい」は、未定義語なんだとか。意味としては同じ確率である、という解釈で良さそうですが、確率を定義するのに確率という言葉を使っていて曖昧さが残っている。また、同様に確からしいことが真なのか証明されたわけではないが、理由不十分の原則(反対理由がない)として妥当であるとしているとのこと。

頻度による定義(統計的確率)

n回試行し、事象Aがa回起こるなら、Aの起こる頻度 \frac{a}{n}  n \to \inftyで真の値にほとんど確実に近づいていく。

これも高校の数学で「大数の法則」で習う話ですね。しかし無限回の試行をすることはできないので、真の値に本当に収束するかどうかはわからない。だから「ほとんど確実に」という微妙な表現が使われている。大数の法則ってそんな曖昧な話で習ったっけ、、、と思って、高校の数学の教科書を見たら確かに「ほとんど確実」という表現でした。当時このあたりの詳しい説明は授業であったのかな、覚えていません。ということでこれも理論的に不完全であるとのこと。

主観確率

上記の2つの定義は、誰が考察しても同じ計算になるので客観確率と呼ばれます。(頻度主義とも。)これに対し、知識、情報、経験により主観的に確率を与えて分析するものを主観確率といいます。この主観確率に基づく統計分析をベイズ統計学という。いわば確信度、信念の度合いを定量化したもの。例えば、「明日晴れる確率」という言葉は不自然ではないですが、前述の2つのどちらの定義にも当てはめられない。天気予報なんかは、知識や情報にもとづいて、信念の度合いとして「明日晴れる確率」を計算しているっていうことになりますね。また、同様に確定した事実に対しても当てはめられない。例えば「容疑者Aが犯人である確率」。Aさんに無限回の人生を歩んでもらったらN回犯罪を犯したなんてありえないですもんね。こういうのも信念の度合いとしてなら数字で表せるということですね。

公理主義的確率

確率という言葉の意味は考えずに P(A)  Aの確率と呼ぶなら、 Pはどのような性質を満たすべきか?を公理として設けたもの。公理とは、証明されなくても正しいとされる議論の大前提。確率論では以下の3つを公理として設けます。

  • 全ての事象Aに対して 0 \leq P(A) \leq 1
  •  P(\Omega)=1 ( \Omega:全事象の集合)
  • 互いに排反な事象 A_1,A_2, \cdots に対して、

 P(A_1 \cup A_2 \cup \cdots) = P(A_1)+ P(A_2)+\cdots \tag{2}

この3つが成り立つものを確率と定義し、ここを出発点として様々な定理を導き出していきます。この定義では確率の解釈は与えられておらず、とにかく公理を満たしてればそれは確率と呼べる、というのが数学的な見方のようです。実際に確率を計算するときに何らかの解釈(主観確率や客観確率)を当てはめていくんですね。そのとき、例えばサイコロは本当に全ての目が1/6で出るのか?(同様に確からしいのか?)は数学で扱う話ではないと。(サイコロの材質とか、投げ方とか、、、)で、公理をベースに成り立つ確率論には曖昧さは一切ない、ということだそうです。なんかかっこいい。