タグ

2013年1月29日のブックマーク (9件)

  • Hive 0.10でROLLUP, CUBE, GROUPING SETSが入ったよ - wyukawa's diary

    最近Hiveをいじることはめっきりなくなりましたが1/11にHive 0.10がリリースされましたね。前の0.9が2012/4/30リリースだったことを考えると約8ヶ月ぶりのリリースですね。ちなみに僕がHiveを一番触っていた頃のバージョンは0.6だったりします。てへ。それに比べるとだいぶ機能追加されていますが今回はROLLUP, CUBE, GROUPING SETSについて書いてみたいと思います。 JIRAはこちら [HIVE-3433] Implement CUBE and ROLLUP operators in Hive - ASF JIRA いろんな軸で集計したい場合に商用DBならROLLUP, CUBE, GROUPING SETSといった機能が使えます。これらの機能がなんとHiveでも使えるようになりました。スバラシ。 Pigのほうが早く実装されるかと思いきやHiveのほうが

    Hive 0.10でROLLUP, CUBE, GROUPING SETSが入ったよ - wyukawa's diary
  • タムタムの日記 - 検索結果

  • HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ

    ひとことで言うと「通常必要なパーティション階層の更に下にもうひとつパーティションを掘っておけ」だけ。 普通のパーティション設計 仮にWebサーバのアクセスログを投入するためのテーブル accesslog があるとする。このテーブルを、まずサービス名 service カラムでパーティショニングし、さらに日毎にパーティショニングするとしよう。データは外部でタブ区切りにparseしておき、それを毎日LOADする。 このようなテーブルになる。 CREATE TABLE accesslog ( rhost STRING, time STRING, method STRING, path STRING, status SMALLINT, bytes BIGINT, referer STRING, useragent STRING ) PARTITIONED BY (service STRING, yy

    HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ
  • Hiveのベストプラクティス(かもしれないこと)をめもっておく - wyukawa's diary

    Hiveの現場に来て4か月経ち回りのやり方を観察したり、他の事例を調べたりしているうちにHiveを使用する際のパターンというかベストプラクティスが見えてきた気がするので書いてみるよ。 ユースケースはログ解析です。 1. ファイルフォーマットと圧縮 ログは圧縮率高いので圧縮すべし。でもスプリット可能であるためにはってことでSequenceFileでブロック圧縮は確定。 圧縮コーデックは圧縮率を考えてgzip。 ちなみに圧縮率は bzip2>gzip>LZO でスピードは LZO>gzip>bzip2 だ。bzipはスプリット可能で圧縮率も高いんだけどHadoop 0.20系ではまだ使えなかったと思う。Hadoop 0.20系でも使えるらしいですが遅くて使い物にならないようです。 最近はsnappyなんてのも出ててCDH3 Update 1で使えるようになりましたね。 snappyは圧縮率はL

    Hiveのベストプラクティス(かもしれないこと)をめもっておく - wyukawa's diary
    foaran
    foaran 2013/01/29
  • Hiveことはじめ:お題目うぉっち

  • Hadoop Streaming の Mapper と Reducer を初めて書いて感じたこと:お題目うぉっち

    2010年02月02日 Hadoop Streaming の Mapper と Reducer を初めて書いて感じたこと O'reilly の Hadoopを読んで、ますます Hadoop 熱が上昇中。ということで、社内でもともとDBで行っていて「重い、重い」と評判の分析処理を題材に、既存ロジックの Mapper、Reducerへの置き換えを体験してみた。 結局、6段階のMapReduceのチェーンに置き換えられたのだが、内容はさておくとして、既存の処理を mapper、reducer に置き換えていったときに感じたこと、印象深かったことを記しておくことにする(多分、思い違いや、もっといい方法があると思うが、初心者の過ちということで)。 ■ Streamingの場合、Mapper, Reducerへの入力は Key, Value ではない Javaのメソッドの説明を下手に読んで私がまず混

  • お題目うぉっち:Hadoop Streaming メモ

    2010年01月24日 Hadoop Streaming メモ ClouderaのVMで Hadoop-Streaming をいじったときの調べ物&備忘メモ。 ■処理対象の指定 処理対象ファイルが特定のフォルダの下にある場合は、-input で親フォルダ名を指定するだけで中身のファイルを全て拾ってくれる。 input が2個以上ある場合は -input (対象) -input (対象) というようにして複数回指定すればよい。 inputとして渡されたファイルの拡張子が .gz か .deflate だと、mapperに読み込む前にHadoopが自動的に解凍してくれる(ZIP、JARも可能) ・output も圧縮することも可能( mapred.output.compress=true) ・ファイルのパスを指定する際に使えるワイルドカードは、「?」」と「*」と {a,b} (←コンマで区切ら

  • Hadoop Streamingのハマりどころ3つ - kj-ki’s blog

    Hadoop Streamingでもつまづいては修正し,再びつまづいては修正しの繰り返しでした. 今回も,これ以上犠牲者を増やさないためのメモ3つ. Streaming Command Failed!で落ちる まず,Mapper,Reducerは絶対パスで指定する必要があります. # ×:相対パスだとうまくいかない $ hadoop jar hadoop-streaming-0.20.2+737.jar ... -mapper ./mapper.rb -reducer ./reducer.rb # ○:絶対パスで指定すること $ hadoop jar hadoop-streaming-0.20.2+737.jar ... -mapper /path/to/mapper.rb -reducer /path/to/reducer.rb Streaming Command Failed!で落ちる

    Hadoop Streamingのハマりどころ3つ - kj-ki’s blog
  • 「ガールズ&パンツァー」が面白かったんだが - 偏読日記@はてな

    「我々の常識からすると一般的で無い事が「競技種目」として世界的に流行し、誰も彼もがそれをやって白黒付けているという意味でガールズ&パンツァーとカブトボーグは同ジャンル」という話を先日の忘年会で聞いて非常に納得した 2012-12-24 01:16:59 via TweetDeck 「見たらきっと戦車関係の些末な部分に無粋な突っ込みを入れてしまいそう…… そんな自分自身は嫌だ……」という自意識をもてあまして触れていなかった「ガールズ&パンツァー」を一念発起して全部(10.5話まで)見てみました。 ちなみに公式サイト等での事前情報を仕入れることは一切無し、Twitterで断片的な感想を目にしていたくらい。かなりフラットな状態で鑑賞に臨みました。 「ガールズ&パンツァー」 | 【アニメ】はバンダイチャンネル なにこれ、最高に面白いんですけど。 華道・茶道などとならんで「戦車道」が存在し女子高生た

    foaran
    foaran 2013/01/29