[B! tips][hive] restartrのブックマーク

restartr id:restartr

tipsとhiveに関するrestartrのブックマーク (4)

Blog | Cloudera
restartr 2010/05/12
Hadoop M/R, hive, pigでファイル転送する方法。hiveの"add file xxx"はdistributed cache。

*開発

hadoop

tips

mapreduce

hive

pig
リンク
Hiveとか - ‡A Case Of Identity‡
HiveでSequenceFileかつ圧縮しているのに、容量が生の状態より大きいという状態になっていたのですが、セットすべきパラメータが違ったようです。 The right configuration parameter is: set mapred.output.compression.type=BLOCK; http://mail-archives.apache.org/mod_mbox/hadoop-hive-user/200907.mbox/%3C34fd060d0907272234l732f6ed2h70a136f1b611f046@mail.gmail.com%3E これを設定したらきちんと圧縮されました。 HiveWikiには SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below) htt
restartr 2010/04/26
sequenctFileかつ圧縮したデータで、 'set mapred.output.compression.type=BLOCK' をセットして実行。

*開発

tips

hive
リンク
blog.katsuma.tv - hadoop Archive
HiveでのSQLことHQLの小ネタ。HQLでは基本的にSQLはほぼ完璧に利用できますが、たまにハマりポイントもあります。その１つが並び替えのORDER BY。 ORDER BYとSORT BY HQLの文法的にORDER BYは有効ですが、実際は並び替えは行われません。（無視されているような感じ）Hiveでは代わりに「SORT BY [column]」を利用することになります。ただし、ここでも罠があって、SORT BYは結果がreducerの数に依存します。(各reducerがsort処理をしたものがマージされるものになるので、全体としてはおかしな結果を得ることになります) 通常、reducerは複数走っているはずなので、結局SORT BYを利用してもORDER BYと同等の結果を得ることができません。では、どうするか？と言うと明示的にreducerの数を1に指定してからSORT B
restartr 2010/04/06
このテーブルを分ける（カラムを厳選した中間テーブルを作成する）のはHQLの最適化でかなり有効で、SORT BY以外でもかなり有効なケースが多くあります。

*サーバー

hadoop

hive

tips

最適化
リンク
blog.katsuma.tv
前回、紹介したHiveについての続き。 Hiveは内部で扱うメタデータを「metastore」というデータで保持しています。テーブルやパーティションなどの情報、またレコードが実際に保持されてある場所などのメタデータは全部このmetastoreにまとまっています。このmetastoreは、次の3種類の方法で保存することができます。 Embeded metastore Local Metastore Remote Metastore Embeded metastore Embeded metastoreは主にテスト用途に利用されます。テスト用途なので、単一プロセスからの接続しか許可されていません。そのため、コンソールを複数起動して、それぞれのコンソールから別のMap&Reduceを走らせる…なんてことができません。ただし、Hiveは初期設定がこのEmbededモードになっているので、特に設定
restartr 2010/03/08
mysqlでmetastoreを管理すると同一ホスト内から同時に複数接続可能になる。（Local Metastoreなら接続はひとつのみ)

*サーバー

hadoop

hive

tips

configuration
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx