前回の続き。ニューラルネットワークで回帰モデル、2クラス分類モデルを作った場合、誤差関数を出力ユニット活性で微分すると、出力と教師データの差となることを確認しました。(参考:出力ユニット活性で微分(回帰)、出力ユニット活性で微分(2クラス分類)
今回は多クラス分類モデルの場合で計算してみます。考えるモデルは、下図になります。活性化関数はソフトマックス関数です。(参考:ソフトマックス関数)
このモデルの誤差を多クラスロジスティック回帰と同様に、交差エントロピー誤差で定義すれば
です。式(1)の変数の意味は多クラスロジスティック回帰と同じです。
番目のデータに対する番目の出力層での微分は、合成関数の微分とソフトマックス関数の微分より、
をで微分すると、は全てに影響しているのでとなるため、式(2)~(4)の計算にが残っています。ここで、はの中で、いずれか1つのみで1となるから、
となります。また、のときのみだから
です。したがって、
となります。やはり回帰や2クラス分類の場合と同じ結果が得られました。