行列について、
が成り立ちます。これは以下のように確かめることができます。
より、となります。
また、転置行列の定理と同様、
となり、n個の行列に対して
となります。
前回の以下の記事の続きです。
訓練データ、が与えられたとき、新たな入力に対するの確率、すなわちを求めることが目標です。そしてこれは、いくつかの式変形によって以下のように表せました。
式(1)下線部はシグモイド関数の出力ですが、は解析的に求めらません。これは
と変形することができました。さらに式(2)下線部Aは
と求めることができました。そして式(2)下線部Bのをラプラス近似で正規分布の形にして式(2)を計算していく方針です。
ベイズの定理*1より、
です。正規化項であるを無視すれば、
です。ラプラス近似を行うためには、関数の対数をとり、そのヘッセ行列などを求めなくてはなりませんので、
を考えます。式(6)をとおいて、
です。ここで、まず式(8)の右辺を考えます。、なので、
と書けます。はシグモイド関数で、
ですから、
です。式(11)右辺を変形していけば、
と計算できます。従って式(9)は、
です。
そして、式(8)右辺のもう1つの項は、ガウス過程という前提条件で、
でした。
以上より、
です。いろいろ計算がややこしくて何をやっているか見失いそうになるんですが、今はをラプラス近似で正規分布の形にもっていこうとしている途中です、、、。
続きは次回 www.iwanttobeacat.com
前回の以下の記事の続きです。 www.iwanttobeacat.com
訓練データ、が与えられたとき、新たな入力に対するの確率、すなわちを求めることが目標です。そしてこれは、いくつかの式変形によって以下のように表せました。
式(1)において、ですから、式(1)右辺の前半は簡単に求まりますが、は解析的に求められず、これを何とかしていかなくてはなりません。
確率の周辺化の式を用いて、*1
と変形し、さらにベイズの定理により、*2
です。そして確率の乗法定理により、*3
です。ここでとは独立ですから条件から取り除くことができ、
です。そしてベイズの定理の式(1)より、ですから、以上より
となります。
ここでまずは式(6)のを考えます。
はガウス過程という前提条件でした。がガウス過程に従うとき、と書けましたから*4、もこの形で書くことができるはずです。ここでの定数倍をカーネル関数の中に含めれば
と書けます。今考えているのは分類問題で離散値データですから、ガウス過程による回帰(1)の式(1)ようにノイズはありませんが、共分散行列の正定値性の保証のため*5、
のようにノイズの項を加えたものを考えます。これが正定値行列であることが、後々最適解を持つことの保証になります。行列の各要素が式(8)で与えられる共分散行列を用いれば、
と書けます。すると、ガウス過程による回帰(1)、ガウス過程による回帰(2)でを計算したのと同様の手順で、
と計算できます。
次に、式(6)のの計算です。計算の方針はラプラス近似を使って正規分布の形にもっていくことです。そして式(10)とあわせて2つの正規分布の計算とします。
続きは次回 www.iwanttobeacat.com
*1:条件付き確率、同時確率、周辺確率の式(10)
*3:条件付き確率、同時確率、周辺確率の式(2)
*5:分散は0以上であることに注意し、共分散行列の対角成分が正の場合の2次形式を計算してみれば、常に正になることがわかる。
ようやく投信がプラ転!一番ひどいときは250万くらい含み損がありましたが、なんとか復活してくれました。マイナスだったものが少しプラスになっただけで、決して得をしてるわけじゃないんですが、ずいぶん儲かったような錯覚をしてしまう。とりあえず今年はなんとかプラスをキープして終えて欲しいところ。
Web収入 | 投信 前月比評価損益 | 計 |
---|---|---|
688,326円 | 769,582円 | 1,457,908円 |
Web収入 | 投信評価損益 | 個別株 | 計 |
---|---|---|---|
6,530,430円 | 2,242,101円 | 705,618円 | 9,478,149円 |
ガウス過程を用いた分類を考えていきます。2クラスの分類なら、確率的生成モデル - シグモイド関数で導出したシグモイド関数を用いて
とモデル化できます。線形識別ではの部分はのように、係数の線形結合を考えていましたが、これを今回はガウス過程によってモデル化します。
はガウス過程なので、仮にが1次元の入力なら下図左のようなサンプルが得られます。これをシグモイド関数に通したものが下図右で、出力を確率として扱うことができるようになる、というのは確率的生成モデル - シグモイド関数で見たとおりです。縦軸で0.5を閾値にどちらのクラスかを識別します。
2次元入力なら下図のようなイメージです。左がガウス過程から得られた分布、真ん中がそれをシグモイド関数に通したものです。これを識別の結果でよく使う等高線図にしたものが右のグラフです。ガウス過程による分類では、これを訓練データをもとにして期待する識別境界となるようにしていきます。
さて、目標は、訓練データ、が与えられたとき、新たな入力に対するの確率、すなわちを求めることです。なお2クラス分類を考えていますので、とすれば、の確率が求まればの確率も当然求まります。また、以降は入力の条件を省略してと表記します。
確率の周辺化により、*1
と変形できます。ここでです。つまり新たな入力点に対応したガウス過程の出力値です。2次元入力の上のグラフ左図でいえば、新たな入力座標に対するZ軸の値です。
さらに条件付き同時確率の式変形により式(2)の右辺は、*2
となります。ここで、は、が与えられればで決まりますから、には依存しません。従って、
となります。この辺りの式変形は線形回帰をベイズ推定で解く(1)予測分布の導出とけっこう似ていますね。
で、この式(4)をなんとかして求めていくのですが、けっこう長い道のりになります、、、。全6回にわたって計算が続きます。 ちなみに最終結果は次のようになります。
最終的な実験結果はこちらです
*1:条件付き確率、同時確率、周辺確率の式(10)
*2:条件付き確率、同時確率、周辺確率の式(8)
去年の投信評価損-300万からだいぶ挽回してきて、もうすぐプラスに転じそうだというところで今月もあと一歩が及ばず。(一昨年まででけっこう含み益があったのです) 昨年は10月に相場が大きく下がりましたが、今年はどうなるか。
Web収入 | 投信 前月比評価損益 | 計 |
---|---|---|
700,380円 | 457,767円 | 1,158,147円 |
Web収入 | 投信評価損益 | 個別株 | 計 |
---|---|---|---|
5,842,104円 | 1,472,519円 | 705,618円 | 8,020,241円 |
関数を正規分布の形状で近似する方法です。
の対数をとったにおいて、となる点まわりでのテイラー展開による2次近似を考えます。多変数関数の点まわりのテイラー展開は、
ですので、の点まわりでのテイラー展開による2次近似は、
です。(参考:ヘッセ行列で極値の判定 *1)ここで
です。
とすれば、
です。対数を外せば、
です。式(6)はまさに多変量正規分布の形をしています。
試しにをラプラス近似してみました。計算に自信がなかったので簡単な1変数関数にしてしまいました。これをラプラス近似すると、
となりました。グラフにすると下図のようになり、確かに近似になっていそうです。
*1:文字の表現が少し違ってるので、対比して見ると余計ややこしくなりそうですが