この記事はScala Advent Calendarの9日目です。 遅刻しました。すんません(´・ω・`) Apache Sparkとかいうのがあるぽよです。 よくわかんないけど面白そうなので足突っ込んでみました。 そもそもSpark is 何? 大規模ストリーム処理フレームワークだそうな。 RDD(Reslient Distributed Datasets)と呼ばれるキャッシュ機能によってデータセットを 繰り返し扱うような処理(機械学習、データマイニング)が他と比べて数倍から数十倍早く行える。 主な用途として、機械学習やデータマイニング、ログ解析など。 Streaming配信を行うサービスで使われたりも。 そして何より…..Scalaで実装されてる! 今回の目標 とりあえず「チュートリアル」やってみます。 まずは導入から ローカル環境で遊んでみる分には、Spark本体のみで大丈夫です。

