はじめに こんにちは、adingoの岩川です。 ビッグデータという言葉が浸透して、実際に向き合う機会も増えてきていると感じます。 ビッグなデータを処理するには相応の計算パワーが必要です。分散処理システムを使って対処するのは一般的な方法ですが、分散処理システムを1から組むのは大変なので、Hadoop MapReduceベースのシステムが広く利用されています。 Hadoop MapReduceにおいては、ユーザはMapReduceと呼ばれる計算モデルに従って、Map処理、Reduce処理と呼ばれる計算内容のコア部分だけを書けばよく、タスク配分や通信などをケアする必要がありません。これによって、プログラミングのコストを大幅に減らすことが可能なのです。 しかしながら、実はHadoopクラスタの管理は決してラクなものではありません。 何台ものサーバをセットアップし、Hadoopをインストールしてやり