[B! Tips][hadoop][mapreduce] restartrのブックマーク

restartr id:restartr

Tipsとhadoopとmapreduceに関するrestartrのブックマーク (4)

Blog | Cloudera
restartr 2010/05/12
Hadoop M/R, hive, pigでファイル転送する方法。hiveの"add file xxx"はdistributed cache。

*開発

hadoop

tips

mapreduce

hive

pig
リンク
http://allthingshadoop.com/2010/04/28/map-reduce-tips-tricks-your-first-real-cluster/
restartr 2010/05/06
*サーバー

hadoop

configuration

tips

mapreduce
リンク
Hadoopを使いこなす(2)
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、前回のHadoopの記事に引き続き、MapReduceのカスタマイズポイントを解説していきます。前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。デフォルトのrun関数は以下の通りです。 public vo
restartr 2010/03/07
MapReduceRunner, Partitioner, Combiner, DistributedCache, Comparator, OutputFormat, Writableの仕様とカスタムポイントについて。

*開発

mapreduce

hadoop

tips
リンク
Hadoopを使いこなす(1)
まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed
restartr 2010/03/07
flowの説明と、InputFormatのカスタマイズによるファイル分割の最適化の勘所について。

*開発

mapreduce

hadoop

tips
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx