前回のおさらい 第28回ではHadoop Streamingの仕組みについて説明しました。今回は,実際にHadoop Streamingを利用してデータ解析したときの具体的な話や,利用してみて困った(ハマった)Hadoop Streaming特有の問題とその解決法について紹介していきます。 実際に利用してみて困った(ハマった)こと さて,第28回でも紹介しましたが今回Hadoopを利用したのはたべみるのデータ解析のためです。たべみるのデータ解析では,食材名や地域名といった特定の値ごとにデータをまとめる処理が多く,またその処理速度が遅いのが問題だったのですが,このような処理はHadoop上(Ruby)でも比較的簡単に実装することができました。 それで最初は「これはスムーズにHadoop上に処理を移行できるかも?」と考えていたのですが,思わぬところで問題が発生してきて困りました。というのも,M