Fluentd+ElasticSearch+Kibanaでアイドルデータ分析基盤を作ってみたの回で、FluentdとTwitter Streaming APIを使ってS3にツイートデータを保存したので、このデータをHadoopを使って解析してみます。 今回はMeCabを使って形態素解析してワードカウントを取るような教科書的なMapReduceを試してみました。Hadoop Streamingを使ってPythonでMapper、Reducerを書いていきます。 環境 OS: Mac OS X(El Capitan) Python: 2.7.11 Hadoop: 2.7.1 Hadoopのインストール&設定 以下のURLを参考にインストール&設定すればOK。 分散処理に入門してみた(Hadoop + Spark) Macでhadoopをちょっとだけ動かしてみる – Qiita Mac OS X