こんにちは!HALです。 以前、『リアルタイム分析を実現する強力なツールシリーズ~Spark~』という記事をご紹介いたしましたが、今回はその続編となります。 ■Sparkとは ビッグデータ関連のOSS(オープンソースソフトウェア)で、Hadoopに比べ、インメモリー処理を主体とするため、より高速な処理ができるものになっています。 ■Sparkのメリット Hadoopの標準的な処理方式であるMapReduceは、「繰り返し処理」、「多段処理」という複雑な処理を苦手としています。 理由としては、MapReduce は、Map処理とReduce処理の一対を単位とするため、処理の度に沢山の中間データが発生してしまうからになります。 Sparkは、この「繰り返し処理」と「多段処理」はこの処理が得意なため、機械学習に代表されるような処理に非常に向いています。 ■Sparkの目標はビッグデータの標準的な