タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

SparkとDatabaseに関するwlbhiroのブックマーク (1)

  • Apache Spark の JdbcRDD を使ってみた結果 - Qiita

    概要 前回の投稿で Apache Spark 使ってアクセスログを解析して、CSVファイル出力をやってみましたが、 Apache Spark を使ってアクセスログを解析して、その結果をCSVファイルに出力してみた。 今度はアクセスログじゃなくてMySQLのデータを Apache Spark 使って集計出来るかを試してみました。 経緯 user 1 --- n entry のようなテーブル関連で各userレコードに関連するentryの数とそのentryのキーなどの情報を知りたくて、 またCSVファイル(w)で出力してチーム内で共有しようと思ったのです。 ただ、userテーブルのレコード数が80万件近くあり、普通に slick 使った集計スクリプトだと、クソ遅くてやってられん。(← ク○コードだからかも。。) そこで。。 分散処理できないかなー ↓ Apache Spark でできないかなー

    Apache Spark の JdbcRDD を使ってみた結果 - Qiita
  • 1