hadoopとはてなブログに関するshun9167のブックマーク (2)

  • HadoopStreaming で xml ファイルを処理する - しろかい!

    HadoopStreaming で xml ファイルを扱う方法の解説です. この記事では,しろかい!のRSSフィードから <title>~</title> を抽出することを目標とします. また,言語は Python を使用します. 実装にあたっては以下の記事を参考にしました(英語です). http://davidvhill.com/article/processing-xml-with-hadoop-streaming RSSフィードを取得してHDFSに転送 $ wget http://shirokai.hatenablog.com/feed -O feed.xml $ hadoop fs -put feed.xml mapper.py <entry>~</entry> 間をまとめた後,xml をパースして <title>~</title> を出力します. #!/usr/bin/env p

    HadoopStreaming で xml ファイルを処理する - しろかい!
    shun9167
    shun9167 2015/11/02
    はてなブログに投稿しました #はてなブログ #hatena #hadoop #python #xml HadoopStreaming で xml ファイルを処理する - しろかい!
  • HadoopStreaming で MapReduce を Python で動かす - しろかい!

    HadoopStreaming を 使って Python で Hadoop を動かす方法です. Mapper と Reducer は通常 Java で記述しなければいけませんが,HadoopStreaming を使えば Python などの他の言語で書けるので実装がとても楽になります! HadoopStreaming とは? Mapper と Reducer のやり取りを標準入出力を介することで,他のプログラミング言語からも Hadoop (MapReduce) を利用できるようにする仕組みです. 標準入出力さえ扱えれば基的にどんな言語でも構わないので,Python だけでなく Ruby, Perl, シェルスクリプト等を使って Mapper と Reducer を実装することができます. 詳しい説明は以下をどうぞ! Hadoop Streamingメモ(Hishidama's Hado

    HadoopStreaming で MapReduce を Python で動かす - しろかい!
    shun9167
    shun9167 2015/10/26
    はてなブログに投稿しました #はてなブログ #hatena #hadoop #python HadoopStreaming で MapReduce を Python で動かす - しろ…
  • 1