ソフトマックス関数 - 機械学習に詳しくなりたいブログ

概要

2クラスの場合に確率的生成モデルを考えると、シグモイド関数で事後確率 $P(C_k|\mathbf{x})$ が表せました。今回は多クラスの場合を考えます。

ソフトマックス関数の導出

確率的生成モデル - シグモイド関数と同様の計算（ベイズの定理）により、

$\displaystyle P(C_k|\mathbf{x}) = \frac{P(\mathbf{x}|C_k)P(C_k)}{\sum_{j}P(\mathbf{x}|C_j)P(C_j)} \tag{1}$

となります。ここで

$a_k = \ln (P(\mathbf{x}|C_k)P(C_k)) \tag{2}$

とすれば、

$\exp(a_k) = P(\mathbf{x}|C_k)P(C_k) \tag{3}$

だから、式(1)は

$\displaystyle P(C_k|\mathbf{x}) = \frac{\exp(a_k)}{\sum_{j}\exp(a_j)} \tag{4}$

となり、これをソフトマックス関数と呼びます。出力範囲が $[0,1$ ]であり、

$\displaystyle \sum_k \frac{\exp(a_k)}{\sum_{j}\exp(a_j)} = 1 \tag{5}$

ですから、シグモイド関数と同様にソフトマックス関数の出力は確率として解釈することができます。 $a_k$ はシグモイド関数と同様に $\mathbf{x}$ の線形結合 $\mathbf{w}_k^{T}\mathbf{x}$ でモデル化します。

2クラスのロジスティック回帰とは違い、求めるパラメータ $\mathbf{w}_k$ はクラスごとに $K$ 種類ありますので、 $D$ 次元の入力であれば $D\times K$ 個のパラメータになります。

ソフトマックス関数のグラフ

ソフトマックス関数のグラフの形状を見てみます。 $k=1,2,3$ 、 $a_1 = 2.5,a_2=5.0$ と固定し、 $a_3$ を変化させていったときの各ソフトマックス関数の出力は以下のグラフのようになりました。

横軸が $a_3$ で、縦軸がソフトマックス関数の出力です。グラフ中のAの区間では5.0である $a_2$ が最大なので、オレンジのグラフが最も高い値を出力しています。Bの区間では $a_1$ と $a_3$ の大小関係が逆転し、緑のグラフが青より高い値になっています。Cの区間では $a_3$ が最大になるので緑のグラフが最も高い値を出力します。