みなさま、Hadoop Streamingという機能はご存知でしょうか。Hadoopが開発された当初から存在する機能でいわゆるMapReduceをJavaではなくてPythonやRubyで実装できるという機能です。EMRにおいてもストリーミングでのデータ処理という名前で利用できるようになっています。いまならSparkを覚えた方がいいのかもしれませんが、S3に存在するファイルに対してちょっとしたフィルタリング処理を行ったりするには便利だったりするので紹介したいと思います。 前提 emr-5.5.0 でアプリケーションは Hadoop のみ ハードウェア構成は m1.medium を 1 台(検証用なのでマスターノードのみ) 東京リージョン 言語はPython 2.7.12 EMRクラスタの作成 まずはEMRクラスタを作成します。AWS CLIを利用する場合は以下のようなコマンドになります。S