分散処理フレームワークの Spark を使って、id:fits:20111123 で実施したような GitHub データの簡単なレコメンドを実施してみます。 Spark はインメモリーに分散データをキャッシュできる等の特徴があり、個人的に Scala のコレクション API 風に MapReduce 処理を実装できる点が気に入っています。 Spark 0.4 サンプルソースは http://github.com/fits/try_samples/tree/master/blog/20111215/ なお、入力データは id:fits:20111123 で使った CSV ファイル(以下のフォーマット)をそのまま使う事にします。 <ユーザーID>,<ユーザー名>,<リポジトリID>,<リポジトリ名>, 入力データ例(grails_watcher_watched.csv) ・・・ 261649,