[B! MapReduce] Futaro99のブックマーク

Futaro99 id:Futaro99

MapReduceに関するFutaro99のブックマーク (3)

Hadoopを使いこなす(1)
まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed
Futaro99 2010/01/27
hadoop

MapReduce
リンク
Amazon MapReduceを使ってPHPで画像処理してみる - ku-sukeのブログ
今日はとある私的なプロジェクトで画像の情報操作が必要になったので、ローカルで計算してもいいんだけど今後もパラメータチューニングで何度か発生しそうなので、AmazonのMapReduceを使ってみました。今回の構成図はこんなかんじ。全部Amazonで全部PHPでやってみた。やろうとおもったきっかけ別に5万枚くらいじゃ実はAmazonじゃなくてもよかったりします。一晩ペチぺーのスクリプトを4〜5本平行で走らせておけば、ローカルのMySQLに結果をためるくらい可能です。でも、今後のために勉強したかった。MapReduceで調べても、Apacheのログとかテキスト操作くらいしか見つからなかったので。データをオンラインに置きたかった・ローカルに置きたくなかった。そうすると、MapReduceするにせよしないにせよS3がよさそうだった。じゃあ、EC2一晩動かすより、MapReduceで一
Futaro99 2009/11/27
Amazon

MapReduce
リンク
blog.katsuma.tv
前回、JavaScriptでMap Reduceのコードが書けるHadoop Streamingについて紹介しました。標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。で、面白いのがHiveQLの操作は基本的にMap Reduceのラッパーになっていること。要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出
Futaro99 2009/09/29
MapReduce

hadoop

hive
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx