ビッグデータとR、多重共線性とか

久々の更新。3ヶ月ぶり。

ビッグデータビッグデータと世の中はにぎわっているね。ま、にぎわうのはよいことだ。
さて、このビッグデータの解析手法色々あるけど、根本的には複数台のマシンで処理を分散させることだ。

で、Rでこの処理を行う場合、個人的にはsnowと呼ばれるライブラリを使うのが一番かなーと思う。統数研のスパコンもRとsnowらしいし。
Scoketとか、MPIとか選べるし。ただ、ポート番号とかでつまづく可能性もあるから、そこは英語の文献とかマニュアルとかをみて調べる必要もあるけど。

ブートストラップとかやるのであれば、これが一番かなーと思う。

ただ、エラー処理を自分でどうにかしなくちゃいけないのが、難点ではあるのだけど。。


そういえば、昨日言ったとある勉強会で回帰分析の多重共線性の話がでていたなぁ。主成分分析ではどうなるの、みたいな話で。多重共線性があると、最小二乗法においては逆行列が求められない、つまり計算ができないから問題になるわけで、逆行列を求める計算処理がなければ計算はできるから、そもそも問題として成立しない。ただ、これは計算上の話で、統計モデルとして良いモデルかというのは別問題。「そんな似ている変数を両方ともモデルにいれて、何がしたいの?計算量多くなるから、一つで十分じゃん。」という立場もあるだろうし、「理論上、そういうもんだから入れるの!」みたいな立場もあると思う。

ま、こういうのはゴールとか目標が決まっていれば、それに合わせて立場をとるもんだと思う。当たれば良いという考えであれば共線があろうがなかろうが、当たるモデルがいいモデルと選択すればいい話なのです。