HadoopStreaming で xml ファイルを扱う方法の解説です. この記事では,しろかい!のRSSフィードから <title>~</title> を抽出することを目標とします. また,言語は Python を使用します. 実装にあたっては以下の記事を参考にしました(英語です). http://davidvhill.com/article/processing-xml-with-hadoop-streaming RSSフィードを取得してHDFSに転送 $ wget http://shirokai.hatenablog.com/feed -O feed.xml $ hadoop fs -put feed.xml mapper.py <entry>~</entry> 間をまとめた後,xml をパースして <title>~</title> を出力します. #!/usr/bin/env p