タグ

2012年10月11日のブックマーク (2件)

  • Hiveを試してみた - nokunoの日記

    今度はHiveも試してみました.http://www.cloudera.com/wp-content/uploads/2010/01/6-IntroToHive.pdfHome - Apache Hive - Apache Software Foundationメモ 解析前にテーブルを作る必要がある SQLのようにORDER BYやLIMITを使えるので,簡単な集計を1行で書ける Tokenizeが用意されていないのでWordCountとかするにはUDFが必要 クエリログ集計の例Pigに付属のexciteのクエリログで試してみる. CREATE TABLE querylog (freq INT, word STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ STORED AS TEXTFILE; LOAD DATA LOCAL IN

  • Hiveのベストプラクティス(かもしれないこと)をめもっておく - wyukawa's diary

    Hiveの現場に来て4か月経ち回りのやり方を観察したり、他の事例を調べたりしているうちにHiveを使用する際のパターンというかベストプラクティスが見えてきた気がするので書いてみるよ。 ユースケースはログ解析です。 1. ファイルフォーマットと圧縮 ログは圧縮率高いので圧縮すべし。でもスプリット可能であるためにはってことでSequenceFileでブロック圧縮は確定。 圧縮コーデックは圧縮率を考えてgzip。 ちなみに圧縮率は bzip2>gzip>LZO でスピードは LZO>gzip>bzip2 だ。bzipはスプリット可能で圧縮率も高いんだけどHadoop 0.20系ではまだ使えなかったと思う。Hadoop 0.20系でも使えるらしいですが遅くて使い物にならないようです。 最近はsnappyなんてのも出ててCDH3 Update 1で使えるようになりましたね。 snappyは圧縮率はL

    Hiveのベストプラクティス(かもしれないこと)をめもっておく - wyukawa's diary