aoe-tkのブックマーク - はてなブックマーク

HDFSのファイル書き込み部分のソースを読んでみた Part2 - wyukawa's diary
前回はこちら HDFSのファイル書き込み部分のソースを読んでみた - wyukawa’s blog ResponseProcessorスレッドをstartする前にnextBlockOutputStreamメソッドを呼び出しデータノードと接続します。 // get new block from namenode. if (blockStream == null) { LOG.debug("Allocating new block"); nodes = nextBlockOutputStream(src); this.setName("DataStreamer for file " + src + " block " + block); response = new ResponseProcessor(nodes); response.start(); } nextBlockOutputStr
aoe-tk 2012/02/23
書き込み中にdfs.client.block.write.retries以上の台数のDNが一度に落ちたりしたら書き込みが失敗する可能性があるということですかね。

hadoop

hdfs
リンク
Hiveのjoinの最適化 - wyukawa's diary
元ネタはこちら Join Optimization in Apache Hive Hiveは0.7からjoinが最適化されています。どのように最適化されたのか上記の資料をひもといてみます。いままでのjoin いままでのjoinはいわゆるソートマージジョインです。 mapフェーズでテーブルのデータを読み込んでjoinキー、joinバリューを出力し、shuffleフェーズでソート、reduceフェーズでjoinという流れです。この場合shuffleフェーズのソート処理がボトルネックとなっていました。そこで登場するのがMap Joinです。 joinの片方のテーブルのサイズがメモリに収まるほど小さいのであれば、mapperのメモリに読み込んでmapフェーズだけでjoinします。こんな感じの構文で書きます。 select /*+map join(a)*/ * from src1 x join
aoe-tk 2011/08/19
hadoop

hive
リンク
1

はてなブックマーク

タグ

ブックマーク / wyukawa.hatenablog.com (2)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / wyukawa.hatenablog.com (2)

HDFSのファイル書き込み部分のソースを読んでみた Part2 - wyukawa's diary

Hiveのjoinの最適化 - wyukawa's diary

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス