最小二乗法による線形識別では、出力が最大となるクラスを識別結果としていました。また、その出力と教師データとの誤差を正規分布に従うと仮定して解いているため、正しく識別することができませんでした。(参考:線形識別を最小二乗法で解く) 最小二乗法では、教師データの1ofK符号の意味は特に考慮せず、とにかく出力がこれに近くなるように解いています。これに対して1ofK符号を確率として解釈し、データはどのような分布に従って生起するのか?を考慮したモデルを確率的生成モデルと呼びます。*1
クラス、クラス
の2クラスの問題を考えます。データ
が与えられたとき、クラス
に属する確率は、ベイズの定理より、
と書けます。事後確率を出力結果とするようなモデルを考え、これが0.5を超えるならクラス
に識別する、とします。そのようなモデルを考えたいので、右辺が
の線形関数で表せると都合が良いです。
式(1)は周辺確率、確率の乗法定理を使えば(参考:条件付き確率、同時確率、周辺確率))、
と展開できます。ここで、
とすれば、
だから、これを式(2)に代入して計算していけば
となります。式(7)をで表し、これをシグモイド関数と呼びます。
さて、ここで式(3)がの線形関数
で表すことができるなら、
が与えられたとき、クラス
である確率
は
で書けることになります。もちろん
です。
ちなみにシグモイド関数は以下のような形の関数で、どのような入力でも出力は]の区間に収まっており、確率の公理を満たしていますから、確率として解釈できることが確認できます。(参考:確率の定義) ベイズの定理から出発したのだから確率として解釈できるのは当然ですが、、、。

以上より、事後確率は
の出力として表せることがわかりました。前提としては、式(3)が
で表せること、なのですが、これは次回確認したいと思います。→確率的生成モデル(2)
*1:この説明は、多分間違ってはいないと思いますが、なんかあまり的を射ていないような気もする