hadoopに関するshun9167のブックマーク (4)

  • HadoopStreaming で xml ファイルを処理する - しろかい!

    HadoopStreaming で xml ファイルを扱う方法の解説です. この記事では,しろかい!のRSSフィードから <title>~</title> を抽出することを目標とします. また,言語は Python を使用します. 実装にあたっては以下の記事を参考にしました(英語です). http://davidvhill.com/article/processing-xml-with-hadoop-streaming RSSフィードを取得してHDFSに転送 $ wget http://shirokai.hatenablog.com/feed -O feed.xml $ hadoop fs -put feed.xml mapper.py <entry>~</entry> 間をまとめた後,xml をパースして <title>~</title> を出力します. #!/usr/bin/env p

    HadoopStreaming で xml ファイルを処理する - しろかい!
    shun9167
    shun9167 2015/11/02
    はてなブログに投稿しました #はてなブログ #hatena #hadoop #python #xml HadoopStreaming で xml ファイルを処理する - しろかい!
  • HadoopStreaming で MapReduce を Python で動かす - しろかい!

    HadoopStreaming を 使って Python で Hadoop を動かす方法です. Mapper と Reducer は通常 Java で記述しなければいけませんが,HadoopStreaming を使えば Python などの他の言語で書けるので実装がとても楽になります! HadoopStreaming とは? Mapper と Reducer のやり取りを標準入出力を介することで,他のプログラミング言語からも Hadoop (MapReduce) を利用できるようにする仕組みです. 標準入出力さえ扱えれば基的にどんな言語でも構わないので,Python だけでなく Ruby, Perl, シェルスクリプト等を使って Mapper と Reducer を実装することができます. 詳しい説明は以下をどうぞ! Hadoop Streamingメモ(Hishidama's Hado

    HadoopStreaming で MapReduce を Python で動かす - しろかい!
    shun9167
    shun9167 2015/10/26
    はてなブログに投稿しました #はてなブログ #hatena #hadoop #python HadoopStreaming で MapReduce を Python で動かす - しろ…
  • Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム:テキストマイニングで始める実践Hadoop活用(最終回)(1/3 ページ) Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します Passive-Aggressiveとロジスティック回帰で精度向上 前回の「実践! 「MapReduceでテキストマイニング」徹底解説」では、「青空文庫」の作品から学習を行い、テキストデータから著者の寿命を推定するMapReduceプログラムを作成しました。 今回は、前回のプログラムを少し変更するだけで、精度が上がる「Passive-Aggressive」というアルゴリズムを実装します。また、テキスト分類のアルゴリズムと

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム
  • PythonでHadoopを実行するラッパー - Qiita

    Hadoopの機械学習Pythonでやりたい Java以外でもHadoopのJobを書くことが出来るので、 機械学習に強いPythonをHadoopで実装できるようなSkipJackというラッパーをPythonもくもく会と正月で作りました。 GitHubは以下においています。(pipは無し) GitHub-SkipJack 以下、詳細 HadoopStreaming Scikit-learn SkipJack HadoopStreaming Hadoopでは、 スレーブ部分でJavaを実行する(Haoop MR Tutorial) スレーブ部分で標準入出力を介してファイルを実行する(Hadoop Streaming Tutorial) という2つの実行方法があり、 標準入出力を扱える全ての言語でHadoopが使えます。(Hadoop Streaming) なので、Hadoopで機械学習

    PythonでHadoopを実行するラッパー - Qiita
  • 1