hajimepgのブックマーク / 2012年10月11日

Hiveのベストプラクティス(かもしれないこと)をめもっておく - wyukawa's diary

Hiveの現場に来て4か月経ち回りのやり方を観察したり、他の事例を調べたりしているうちにHiveを使用する際のパターンというかベストプラクティスが見えてきた気がするので書いてみるよ。ユースケースはログ解析です。 1. ファイルフォーマットと圧縮ログは圧縮率高いので圧縮すべし。でもスプリット可能であるためにはってことでSequenceFileでブロック圧縮は確定。圧縮コーデックは圧縮率を考えてgzip。ちなみに圧縮率は bzip2>gzip>LZO でスピードは LZO>gzip>bzip2 だ。bzipはスプリット可能で圧縮率も高いんだけどHadoop 0.20系ではまだ使えなかったと思う。Hadoop 0.20系でも使えるらしいですが遅くて使い物にならないようです。最近はsnappyなんてのも出ててCDH3 Update 1で使えるようになりましたね。 snappyは圧縮率はL

はてなブックマーク

タグ

2012年10月11日のブックマーク (2件)

Hiveを試してみた - nokunoの日記

Hiveのベストプラクティス(かもしれないこと)をめもっておく - wyukawa's diary

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス