はじめに 前回の Advent Calendar の投稿では, 簡単に Dataproc の特徴について説明を行いましたが、今回は, 実際に Dataproc を使ったレコメンドシステムの実装について解説したいと思います。 実装するシステムの概要 【追記】 下記では、BigQuery から直接読み込む実装にしていますが、データ量が大きい場合(数百MB以上)は、テキストデータに比べて読み込みに大幅に時間がかかるため、BigQuery から GCS へ一旦エクスポートし、CSVファイルとして読み込むことをお勧めします。 本投稿では、ユーザーのアイテムに対するLikeや閲覧履歴から、ユーザーに対してアイテムをレコメンドするシステムを実装します。ライブラリとしては、Matrix Factorization を Alternating Least Square という手法で計算するライブラリを使って