概要 前回の投稿で Apache Spark 使ってアクセスログを解析して、CSVファイル出力をやってみましたが、 Apache Spark を使ってアクセスログを解析して、その結果をCSVファイルに出力してみた。 今度はアクセスログじゃなくてMySQLのデータを Apache Spark 使って集計出来るかを試してみました。 経緯 user 1 --- n entry のようなテーブル関連で各userレコードに関連するentryの数とそのentryのキーなどの情報を知りたくて、 またCSVファイル(w)で出力してチーム内で共有しようと思ったのです。 ただ、userテーブルのレコード数が80万件近くあり、普通に slick 使った集計スクリプトだと、クソ遅くてやってられん。(← ク○コードだからかも。。) そこで。。 分散処理できないかなー ↓ Apache Spark でできないかなー