前回のおさらい 第28回ではHadoop Streamingの仕組みについて説明しました。今回は、実際にHadoop Streamingを利用してデータ解析したときの具体的な話や、利用してみて困った(ハマった)Hadoop Streaming特有の問題とその解決法について紹介していきます。 実際に利用してみて困った(ハマった)こと さて、第28回でも紹介しましたが今回Hadoopを利用したのはopen('http://tabemiru.com/2009'); return false;">たべみるのデータ解析のためです。たべみるのデータ解析では、食材名や地域名といった特定の値ごとにデータをまとめる処理が多く、またその処理速度が遅いのが問題だったのですが、このような処理はHadoop上(Ruby)でも比較的簡単に実装することができました。 それで最初は「これはスムーズにHadoop上に処理を
![第30回 RubyとHadoopで分散処理 Hadoop Streamingで外部データを読み込む | gihyo.jp](https://cdn-ak-scissors.b.st-hatena.com/image/square/595f34924f1d3efbb6da0d3d5227ceaea6135337/height=288;version=1;width=512/https%3A%2F%2Fgihyo.jp%2Fassets%2Fimages%2FICON%2F2009%2F344_ruby-freaks_lounge.png)