TokyoWebminingのustを見ていて、doryokujinさんのMapReduce入門編の資料がわかりやすくてよかったです。Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜 View more presentations from Takahiro InoueMapReduceのアルゴリズムデザインに関しては、8月〜9月に邦訳も出るというMapReduce本を読んでいれば似た部分はわかりやすいと思います。MapReduce、とくにHadoopを使った場合のランダムサンプリングはどうやるのかなあ、というのが気になったのでちょっと考えてみました。 選択肢1:全データをシーケンシャルに読み込むdoryokujinさんの資料で説明されていた方法。Mapperで全データをシーケンシャルに読み込んでいき、[0,1]の乱数を返すrandom()関数が0.1以下ならば採用、と