タグ

tipsとhiveに関するrestartrのブックマーク (4)

  • Blog | Cloudera

    restartr
    restartr 2010/05/12
    Hadoop M/R, hive, pigでファイル転送する方法。hiveの"add file xxx"はdistributed cache。
  • Hiveとか - ‡A Case Of Identity‡

    HiveでSequenceFileかつ圧縮しているのに、容量が生の状態より大きいという状態になっていたのですが、セットすべきパラメータが違ったようです。 The right configuration parameter is: set mapred.output.compression.type=BLOCK; http://mail-archives.apache.org/mod_mbox/hadoop-hive-user/200907.mbox/%3C34fd060d0907272234l732f6ed2h70a136f1b611f046@mail.gmail.com%3E これを設定したらきちんと圧縮されました。 HiveWikiには SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below) htt

    Hiveとか - ‡A Case Of Identity‡
    restartr
    restartr 2010/04/26
    sequenctFileかつ圧縮したデータで、 'set mapred.output.compression.type=BLOCK' をセットして実行。
  • blog.katsuma.tv - hadoop Archive

    HiveでのSQLことHQLの小ネタ。HQLでは基的にSQLはほぼ完璧に利用できますが、たまにハマりポイントもあります。その1つが並び替えのORDER BY。 ORDER BYとSORT BY HQLの文法的にORDER BYは有効ですが、実際は並び替えは行われません。(無視されているような感じ)Hiveでは代わりに「SORT BY [column]」を利用することになります。 ただし、ここでも罠があって、SORT BYは結果がreducerの数に依存します。(各reducerがsort処理をしたものがマージされるものになるので、全体としてはおかしな結果を得ることになります) 通常、reducerは複数走っているはずなので、結局SORT BYを利用してもORDER BYと同等の結果を得ることができません。 では、どうするか?と言うと明示的にreducerの数を1に指定してからSORT B

    restartr
    restartr 2010/04/06
    このテーブルを分ける(カラムを厳選した中間テーブルを作成する)のはHQLの最適化でかなり有効で、SORT BY以外でもかなり有効なケースが多くあります。
  • blog.katsuma.tv

    前回、紹介したHiveについての続き。 Hiveは内部で扱うメタデータを「metastore」というデータで保持しています。テーブルやパーティションなどの情報、またレコードが実際に保持されてある場所などのメタデータは全部このmetastoreにまとまっています。このmetastoreは、次の3種類の方法で保存することができます。 Embeded metastore Local Metastore Remote Metastore Embeded metastore Embeded metastoreは主にテスト用途に利用されます。テスト用途なので、単一プロセスからの接続しか許可されていません。 そのため、コンソールを複数起動して、それぞれのコンソールから別のMap&Reduceを走らせる…なんてことができません。ただし、Hiveは初期設定がこのEmbededモードになっているので、特に設定

    restartr
    restartr 2010/03/08
    mysqlでmetastoreを管理すると同一ホスト内から同時に複数接続可能になる。(Local Metastoreなら接続はひとつのみ)
  • 1