こんにちは、shota_suzukiです。 最近『Apache Spark』を色々なプロジェクトで使う機会が増えてきたので、Sparkの基本から紹介いたします。 Apache Sparkについて Apache Sparkはざっくり言ってしまうと、「ビッグデータを処理するためソフトウェア」です。ビッグデータに対する分散処理基盤としては、長らくHadoopが使われてきたことと思います。 しかし、Hadoopの特にMapReduceには苦手な処理もあり、その分野に対する解決策としてSparkがここ数年で相当注目されるようになってきました。 MapReduceでは中間データが毎回ディスクに書き出されるのですが、データの量が多かったりして処理が多段になってくると、ここのコストが無視できなくなってきます。 Sparkでは、中間データをディスクに書き出さず、メモリ上に持っているので、この点ではMapRe