なんだかweb屋界隈ではHadoopだのMahoutだの象を使うだの使わないだの楽しそうな事をやっていて、私はとてもさみしく、そしてうらやましくもなったわけですが手元にそんな立派な環境なんてないわけで。しかし、そんな私にもマルチコアのパソコンが与えられているのでそれで計算の並列化をやってみた。OSはwindows XP(32bit)。 使うのは統計数理研究所のセミナーでお薦めされていたforeachパッケージ*1。これはRevlution Rの人たちが作っているので今後とも継続的な開発と進化が期待できるとのこと。まずは、doSNOWパッケージも合わせてインストール。 install.packages("foreach") install.packages("doSNOW") foreachパッケージではforループの並列化をしてくれるのですが、処理を並列化させないで書くこともできるのでまず
MahoutのCanopyとK-Meansを用い、Canopy生成しCanopy Centroidを用いたK-Means Clustering実行できる Driverの実装法を解説します。次のようなコマンドライン呼び出しで、質の良い Canopy+K-Meansの一連のClusteringの手続きを実行できます。以下では、org.apache.mahout.clustering.canopykmeans packageを作り、追加実装しコンパイルしたJobファイルを $MAHOUT_HOME/bin/mahout-core-0.4-job.jar に置いています。MahoutのVersionは最新の0.4です。 実行例 $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/bin/mahout-core-0.4-job.jar \ org.apache.maho
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く