タグ

2011年9月21日のブックマーク (2件)

  • Hiveのベストプラクティス(かもしれないこと)をめもっておく - wyukawa's diary

    Hiveの現場に来て4か月経ち回りのやり方を観察したり、他の事例を調べたりしているうちにHiveを使用する際のパターンというかベストプラクティスが見えてきた気がするので書いてみるよ。 ユースケースはログ解析です。 1. ファイルフォーマットと圧縮 ログは圧縮率高いので圧縮すべし。でもスプリット可能であるためにはってことでSequenceFileでブロック圧縮は確定。 圧縮コーデックは圧縮率を考えてgzip。 ちなみに圧縮率は bzip2>gzip>LZO でスピードは LZO>gzip>bzip2 だ。bzipはスプリット可能で圧縮率も高いんだけどHadoop 0.20系ではまだ使えなかったと思う。Hadoop 0.20系でも使えるらしいですが遅くて使い物にならないようです。 最近はsnappyなんてのも出ててCDH3 Update 1で使えるようになりましたね。 snappyは圧縮率はL

    Hiveのベストプラクティス(かもしれないこと)をめもっておく - wyukawa's diary
    tagomoris
    tagomoris 2011/09/21
    bzip2は0.20でも使えます。でも死ぬほど遅くて使いものにならない……。
  • Apacheサーバを運用する時に作業効率を100倍にする方法(追記あり) - oranie's blog

    .bashrcに alias htvi='vi /etc/httpd/conf/httpd.conf 'を追記しておく! sudoをちゃんとやっているなら 9/20追記:以下のコマンドは危険です!理由などは次のエントリで。 alias htvi='sudo vi /etc/httpd/conf/httpd.conf 'ですね! 以上! というしょっちゅういじる可能性があって、パスが深い所にあるconfigとかいじるコマンドは alias切っておくと楽という、多分縄文時代からあるネタです。

    Apacheサーバを運用する時に作業効率を100倍にする方法(追記あり) - oranie's blog
    tagomoris
    tagomoris 2011/09/21
    apacheの設定ファイルが /etc にあるか /usr/local にあるかわからないという荒野では100倍になれません