とあるデータの予測。


とあるデータを個人的に分析している。

で、予測した結果がこのグラフ。1つは時系列のグラフで、意外と当っている。黒が実測値。赤が予測値。下のヒストグラム二つは予測値と実測値。ま、そこそこ当っている。ちなみに修正済R二乗が0.55だ。

話はそれるけど、修正済R二乗が0.3だと低いとか、0.8だと高いとか解釈する人がいるけど、それは違う。適用させる分野によって使い分けなければいけない。ある分野では限りなく1に近くないとおかしい場合もあるし、0.3でも十分な場合もある。要は、集めたデータを分析した場合の誤差項に何が含まれるかという解釈をしなくてはいけないのであって、修正済R二乗はそれ単独では絶対的な指標というわけではない。ちなみに、昨日のモデルで0.9以上出ていたのは、同じ手法、同じサンプリングプロセス、同じ分野でやっている。

まあ、いいや。ちなみに、この予測はニューラルネットを使っているんだけど、同じデータ(時系列)でVARモデルと単純な重回帰モデルでもやっている。どれも、大体似たような結果になる(ま、そらそうなんだけど)。モデル間にあまり大差はない。

ただ、この結果はかなりクレンジングとかの作業に気を使っている。生データをそのまま使っても、同じ手法は適用できるけど、違った結果がでると思う。いい結果を得るのであれば、分析の前処理の段階(ほんとはサンプリングプロセスの決定の段階)から、気を使うことがたいせつだ。