はじめに そろそろ俺も分散処理かな、と常々考えていたのでこの機会(アドベントカレンダー)にApache Sparkを勉強して、分散処理を始めてみたいと思います。 全4回くらいに分散して進めていきますのでどうぞよろしくおねがいします。 1. お勉強とインストール Apache Sparkとは 大規模データを分散処理をオンメモリで実現するプラットフォーム 高速 かつ 汎用的 であることを目標に設計されている UC Berkekeyで開発され、今はApacheのトップレベルプロジェクトになっている scala, python, java, SQLのシンプルなAPIを提供している そもそも分散処理とは ある計算処理をネットワーク接続された複数のコンピュータを用いて同時並列で処理すること ビッグデータを扱う際に、処理時間を短縮するための手法のひとつ 安価なサーバを複数台用意して処理を割り振れるので、