前回の続き。ニューラルネットワークで回帰モデル、2クラス分類モデルを作った場合、誤差関数を出力ユニット活性
で微分すると、出力と教師データの差
となることを確認しました。(参考:出力ユニット活性で微分(回帰)、出力ユニット活性で微分(2クラス分類)
今回は多クラス分類モデルの場合で計算してみます。考えるモデルは、下図になります。活性化関数はソフトマックス関数です。(参考:ソフトマックス関数)

このモデルの誤差を多クラスロジスティック回帰と同様に、交差エントロピー誤差で定義すれば
です。式(1)の変数の意味は多クラスロジスティック回帰と同じです。
番目のデータに対する
番目の出力層
での微分は、合成関数の微分とソフトマックス関数の微分より、
を
で微分すると、
は
全てに影響しているので
となるため、式(2)~(4)の計算に
が残っています。ここで、
は
の中で、いずれか1つのみで1となるから、
となります。また、のときのみ
だから
です。したがって、
となります。やはり回帰や2クラス分類の場合と同じ結果が得られました。