機械学習に詳しくなりたいブログ

機械学習や数学について勉強した内容を中心に書きます。100%趣味です。記事は数学的に厳密でなかったり誤りを含んでいるかもしれません。ご指摘頂ければ幸いです。

ロジスティック回帰における交差エントロピー誤差の凸関数性

2クラスのロジスティック回帰における交差エントロピー誤差E(\mathbf{w})は、唯一の最小値を持つ凸関数であること確認します。

ロジスティック回帰における交差エントロピー誤差のヘッセ行列で、交差エントロピー誤差のヘッセ行列が


\mathbf{H} =  \mathbf{X}^{T} \mathbf{R} \mathbf{X} \tag{1}

と書けることを確認しました。ここで任意の非ゼロのベクトル\mathbf{u}を用いて


\mathbf{u}^{T}\mathbf{H}\mathbf{u} = \mathbf{u}^{T} \mathbf{X}^{T} \mathbf{R} \mathbf{X} \mathbf{u}\tag{2}

と変形します。式(2)において


\mathbf{X}\mathbf{u} = \mathbf{v} \tag{3}

とすれば、転置行列の定理を使って


(\mathbf{X}\mathbf{u})^{T} = \mathbf{u}^{T} \mathbf{X}^{T} = \mathbf{v}^{T} \tag{4}

となりますから、式(2)は


\mathbf{u}^{T}\mathbf{H}\mathbf{u} = \mathbf{v}^{T} \mathbf{R} \mathbf{v}\tag{5}

となります。さて、\mathbf{R}は対角成分がy_n(1-y_n)で表される対角行列でした。y_nはシグモイド関数の出力で、0\lt y_n\lt1ですから、\mathbf{R}の対角成分は全て正になっています。したがって、\mathbf{X}\ne Oであれば、


\mathbf{u}^{T}\mathbf{H}\mathbf{u} = \mathbf{v}^{T} \mathbf{R} \mathbf{v} \gt 0 \tag{6}

です。式(6)は、ヘッセ行列\mathbf{H}が正定値行列であることを意味します。(参考:ヘッセ行列で最大/最小値の存在を判定

交差エントロピー誤差E(\mathbf{w})のヘッセ行列が常に正定値行列であるこということは、全ての停留点は極小値ということになります。(参考:ヘッセ行列で極値の判定) このような関数は唯一の最小値を持つ凸関数のみです。

以上より、E(\mathbf{w})は唯一の最小値を持つ凸関数であるということが確認できました。