今年のテーマの一つはビッグデータということで、そろそろ本格的にMapReduceに手を出そうと思います。 手軽にMapReduceを試してみるのであれば、やはりAWSでしょう。今回はAmazon Elastic MapReduce(Amazon EMR)を動かす方法を簡単にまとめておきます。 実行する処理の例としては、Hadoopのチュートリアルにある処理をそのまま使わせてもらいましょう。与えられたテキスト(英文)に出現する単語を数えるというものです。 実行する処理 与えられたテキストに出現する単語を数える 実行の手順 Amazon EMRにはApache Hadoopが使われています。本来Hadoopを使うためには、Hadoopの環境そのものをセットアップする必要があるのですが、そこをAWSが既にやってくれているわけです。 そのため、手順としては Hadoopのジョブとなるjarファイル