ビッグデータとR、多重共線性とか

久々の更新。3ヶ月ぶり。

ビッグデータビッグデータと世の中はにぎわっているね。ま、にぎわうのはよいことだ。
さて、このビッグデータの解析手法色々あるけど、根本的には複数台のマシンで処理を分散させることだ。

で、Rでこの処理を行う場合、個人的にはsnowと呼ばれるライブラリを使うのが一番かなーと思う。統数研のスパコンもRとsnowらしいし。
Scoketとか、MPIとか選べるし。ただ、ポート番号とかでつまづく可能性もあるから、そこは英語の文献とかマニュアルとかをみて調べる必要もあるけど。

ブートストラップとかやるのであれば、これが一番かなーと思う。

ただ、エラー処理を自分でどうにかしなくちゃいけないのが、難点ではあるのだけど。。

続きを読む

International Open Data Day Yokohamaに参加した

2/23(土)なのだけど、International Open Data Day Yokohamaに参加しました。

某官庁のNさんと一緒に。

どんなことをしていたかというのは、一緒のチーム(チームしゅうまい)だった方が解説してくれています。

http://blog.livedoor.jp/loweirisawa/archives/24939325.html

ありがとうございます。

我らがチームしゅうまいは僕(リーダー)とNさんが決選投票で相手チームに投票してしまうというクーデターがあったため、1票差で惜しくもやぶれました。

そんな感じで結構ゆるく、楽しい会でした。

ちなみに、一緒だった方のブログではデータとアメーバ経営についても触れられています。

http://blog.livedoor.jp/loweirisawa/archives/24348512.html

僕自身、盛和塾にはオブザーバー参加しているのですが、納得できることが色々とあります。

データサイエンティストの方向性というと、とにかくマーケティングに目がいきがちですが、経営スタイルとある程度の規模が合致すれば、社内向けのサービスも十分ありうるのです。例えば、アメリカのHarvard Universityでは回帰分析を使って入学者の選抜してますし、RにもBerkleyのAdmissionのデータがあるのです。

こういうのは新卒採用や中途採用者のパフォーマンスを評価してお互いに不幸にならないための一つの手段です。他にも給与査定などにもつかえます(これがいいかどうかというのは別問題ですが)。

こういう方向性も考えるとマーケットは広がりますね、とはいえ、データサイエンティストが経営の知識をもっていないことにはどうしようもないのですが。

ブログのタイトルを変更しました

タイトル通りです。

ブログを1本に統一したいという理由からタイトルと内容を若干変えていきます。

とはいえ、不動産鑑定士の勉強もしますよ。
ま、1年間は明らかに無理(現在の状況を考えると)なのですが。
そもそも、最近勉強できてないし。とはいえ、忘れないように、ここにも記録をつけていきます。

ま、不動産のデータ分析は僕自身の大好きかつ得意な分野ですし、そのへんの話題も含めて書いていきます。

あと、統計、DB周りとか、ビッグデータ処理とかRとか。
色々調べるときになんだかんだ言って、英語で調べると早いのですが、同時に日本語がないので、そのへんの話題も。


そういうわけでよろしくです。