タグ

hadoopに関するmfhamのブックマーク (155)

  • Hadoopを使いこなす(2)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo

    Hadoopを使いこなす(2)
  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • Hadoopサンプル(Hishidama's Hadoop Java sample Memo)

    行毎の合算を行うサンプル 以下のような成績表(試験の点数のCSVファイル)から、各学生ごとの合計点数を算出する例。 #番号,名前, 数学,国語,理科,社会,英語 101,天才, 100, 100, 100, 100, 100 201,無気力, 5, 30, 10, 20, 15 102,ひしだま, 90, 85, 80, 50, 10 202,hoge, 10, 30, 25, 45, 20 103,foo, 60, 60, 60, 60, 25 204,xxx, 80, 77, 90, 40, 44 205,yyy, 65, 90, 55, 80, 65 104,zzz, 40, 60, 60, 70, 20 出力イメージ: 101,天才 500 102,ひしだま 315 103,foo 265 104,zzz 250 201,無気力 80 202,hoge 130 204,xxx 33

    mfham
    mfham 2011/08/28
    出力整形
  • 1台構成のHadoopを30分で試してみる(Ubuntu + Cloudera)

    (参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの ・UbuntuやdebianのLinux環境1台(手元ではUbuntu Server 11.04/10.04/9.10/8.04, debian 5あたりで試していますが、他バージョンでも大丈夫だと思います) ・インターネット接続 ・Sun(Oracle)のJavaパッケージ(aptでインターネットからインストール) ・Cloudera社のCDH3のHadoopパッケージ(aptでインターネットからインストール) 作業手順 1. インストール: Linux環境にて、rootで作業します。 sudo su 1-1. Sun(Oracle)のJavaを入れます。(Sun(Oracle)のものが必要です。) ※ ここで、ubuntu 10や11の人は/etc

    1台構成のHadoopを30分で試してみる(Ubuntu + Cloudera)
  • Hadoopで形態素解析をするの顛末記

    2010.10.11 Hadoop(MapReduce)と形態素解析エンジンのSenをガッチャンコして日語文章の形態素解析をしてみたので、その苦労(つまり知識不足だ!)を披露しておく。 ・ まず、形態素解析エンジンのSenを導入してデモプログラムで動作を確認 ・ 次に、Hadoop(MapReduce)を導入してサンプルプログラムを動かしてみる ・ 最後に、SenをHadoopのアプリケーションとして組み込み、目的とする文章の形態素解析を試みた ・ ハードはThinkPad X60s、メモリー3GB、ディスク300GB ・ ソフトは仮想化していて、ホストWindows 7、VMがORACLE VM VirtualBox 3.2.8 、そしてゲストOSがVine Linux 5.1。ゲストに640MBのメモリーと8GBのディスクを割り当てている。 ・ HadoopとSenは

    mfham
    mfham 2011/08/26
  • 実践! 「MapReduceでテキストマイニング」徹底解説

    重みベクトルを計算するMapReduce 先ほどのMapReduceを実行すると、著者の寿命をKey、作品をベクトル化したValueが並んだファイルが出力されます。 例えば、以下のようなKey/Valueが出力されます(実際にはHadoop独自のバイナリ形式です)。 <86, {奉納:1,黄泉路:1,密教:3,胎子:2,山鉾:1...}> <41, {駄菓子:1,掌:2,チョンチョンチョン:1,凝り性:6...}> <52, {コンニャク:3,世間体:5,アルキメーデス:2...}> 1 public class IterativeParameterMixingDriver { 2 public static void main(String[] args) throws Exception { 3 Configuration conf = new Configuration(); 4 S

    実践! 「MapReduceでテキストマイニング」徹底解説
    mfham
    mfham 2011/08/26
  • <4861646F6F70204D61705265647563658376838D834F8389838082F089F0965582B782E98169312F36816A8146436F64655A696E65>

    開発ツール 55 サンプルファイル [2.29 KB] H adoop MapReduceプログラムを解剖する  オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがありま す)。しかし、意外と初⼼者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの 意味を理解し、MapReduceへの⼊り⼝を⽰したいと思います。  HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体か らでさえも、新APIを使ったサンプルが提⽰されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサン

    mfham
    mfham 2011/08/26
  • Hadoop Java APIメモ(Hishidama's Hadoop Java API Memo)

    ToolRunner [/2010-03-12] Map/Reduceクラスの指定 [/2010-03-19] Mapper [/2010-03-19] Combiner [/2011-12-25] Reducer [/2010-08-11] InputFormat/OutputFormat [2010-03-12] Writable [/2010-03-23] Counter [/2012-03-27] SequenceFile [/2012-12-08] DistributedCache [2012-12-15] ToolRunner チュートリアルのソースでは使っていないが、@ITのサンプルではToolRunnerというクラスを使って実行している。 ToolRunnerを使うと、Configurationの初期化や汎用(一般)オプション(generic option)の解釈を行ってく

    mfham
    mfham 2011/08/26
  • Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る - 木曜不足

    Mahout の、と言いつつ今回も Hadoop の話ばかり。 Hadoop は各ノードにアプリケーションを配布する関係から、通常 jar を作らなければならない。そのため、Eclipse で書いたコードを実行するのもデバッグするのも非常にめんどくさい。 でもうまくやれば、スタンドアローンモード限定だが、Eclipse から jar も作らずそのまま Map-Reduce ジョブを起動できる。デバッグ実行もできるので、ブレイクポイント入れてステップ実行とかも可能だ。 今回はそういう環境の作り方の話。ずいぶん苦労したけど、出来るようになったら簡単。 Eclipse のセットアップなどは済んでいるものとする。Mahout の開発環境を Maven+Eclipse で作る (1) - Mi manca qualche giovedi`? 参照。 なお、Hadoop を展開すると contrib/

    Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る - 木曜不足
  • Hadoop WordCountメモ(Hishidama's Hadoop tutorial WordCount Memo)

    Eclipseの設定 チュートリアルのページではjavacコマンドを使ってコンパイルしているが、やはりコーディングにはEclipseを使いたい。 Hadoopのjarファイルをビルドパスに追加するだけでよい。 jarファイル 備考 チュートリアルのソース チュートリアルのソースはHadoop0.20.1より前のバージョンのものらしく、0.20.1だとコンパイルが警告になる(警告になるだけで、実行は出来る)。 なので、(正しいかどうか分からないけど^^;)0.20.1用に直してみた。 // http://oss.infoscience.co.jp/hadoop/common/docs/current/mapred_tutorial.html 2010-02-21 package jp.hishidama.hadoop.tutorial; import java.io.IOException;

    mfham
    mfham 2011/08/26
  • The Knowhow: hadoop: javaプログラムのコンパイルと実行

    mfham
    mfham 2011/08/26
  • Hadoop擬似分散環境メモ(Hishidama's Hadoop pseudo-distributed Memo)

    S-JIS[2010-03-27/2010-04-04] 変更履歴 Hadoop 擬似分散環境 Hadoopの擬似分散モードをWindowsで試す方法について。 擬似分散環境は、分散環境の各サービス(デーモン)を1台のマシン上で動かすモード。 したがって、各サービスの動作方法は来の分散モードと全く同じになる。

  • Sign in - Google Accounts

  • Runtime error - Meta Search

    Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL