1年くらい前にレコメンドロジックを実装するにあたってSpark MLlibのmllibパッケージ内のRDD版を使っていたのですが、 データの整形など不便だったため、その後リリースされたmlパッケージ以下のDataFrame版を使ってみたい。 きっと楽なはずということでサンプル的なものを実装してみました。 RDDとDataFrame RDD(Resilient Distributed Datasets)は、Spark上で分散処理可能なimmutableなデータセット DataFrameは、RDDを構造化したもので、RDBのテーブル的に処理が可能 DataFrameがより抽象化されたレイヤーで扱えるので、使う側からは楽なのとDataFrameのAPIがジョブを最適化してくれるというメリットもあります。 レコメンドアルゴリズム Spark MLlibに用意されているALSというクラスを使います。
