タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Hiveに関するhisayoshのブックマーク (1)

  • Hiveのjoinの最適化 - wyukawa's diary

    元ネタはこちら Join Optimization in Apache Hive Hiveは0.7からjoinが最適化されています。どのように最適化されたのか上記の資料をひもといてみます。 いままでのjoin いままでのjoinはいわゆるソートマージジョインです。 mapフェーズでテーブルのデータを読み込んでjoinキー、joinバリューを出力し、shuffleフェーズでソート、reduceフェーズでjoinという流れです。 この場合shuffleフェーズのソート処理がボトルネックとなっていました。 そこで登場するのがMap Joinです。 joinの片方のテーブルのサイズがメモリに収まるほど小さいのであれば、mapperのメモリに読み込んでmapフェーズだけでjoinします。 こんな感じの構文で書きます。 select /*+mapjoin(a)*/ * from src1 x join

    Hiveのjoinの最適化 - wyukawa's diary
  • 1