タグ

ブックマーク / wyukawa.hatenablog.com (2)

  • HDFSのファイル書き込み部分のソースを読んでみた Part2 - wyukawa's diary

    前回はこちら HDFSのファイル書き込み部分のソースを読んでみた - wyukawa’s blog ResponseProcessorスレッドをstartする前にnextBlockOutputStreamメソッドを呼び出しデータノードと接続します。 // get new block from namenode. if (blockStream == null) { LOG.debug("Allocating new block"); nodes = nextBlockOutputStream(src); this.setName("DataStreamer for file " + src + " block " + block); response = new ResponseProcessor(nodes); response.start(); } nextBlockOutputStr

    HDFSのファイル書き込み部分のソースを読んでみた Part2 - wyukawa's diary
    aoe-tk
    aoe-tk 2012/02/23
    書き込み中にdfs.client.block.write.retries以上の台数のDNが一度に落ちたりしたら書き込みが失敗する可能性があるということですかね。
  • Hiveのjoinの最適化 - wyukawa's diary

    元ネタはこちら Join Optimization in Apache Hive Hiveは0.7からjoinが最適化されています。どのように最適化されたのか上記の資料をひもといてみます。 いままでのjoin いままでのjoinはいわゆるソートマージジョインです。 mapフェーズでテーブルのデータを読み込んでjoinキー、joinバリューを出力し、shuffleフェーズでソート、reduceフェーズでjoinという流れです。 この場合shuffleフェーズのソート処理がボトルネックとなっていました。 そこで登場するのがMap Joinです。 joinの片方のテーブルのサイズがメモリに収まるほど小さいのであれば、mapperのメモリに読み込んでmapフェーズだけでjoinします。 こんな感じの構文で書きます。 select /*+mapjoin(a)*/ * from src1 x join

    Hiveのjoinの最適化 - wyukawa's diary
  • 1