Hiveに関するyudozenのブックマーク (1)

  • HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ

    ひとことで言うと「通常必要なパーティション階層の更に下にもうひとつパーティションを掘っておけ」だけ。 普通のパーティション設計 仮にWebサーバのアクセスログを投入するためのテーブル accesslog があるとする。このテーブルを、まずサービス名 service カラムでパーティショニングし、さらに日毎にパーティショニングするとしよう。データは外部でタブ区切りにparseしておき、それを毎日LOADする。 このようなテーブルになる。 CREATE TABLE accesslog ( rhost STRING, time STRING, method STRING, path STRING, status SMALLINT, bytes BIGINT, referer STRING, useragent STRING ) PARTITIONED BY (service STRING, yy

    HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ
    yudozen
    yudozen 2013/01/28
    ロードタイミングによって値が決まるパーティション階層をひとつ増やしておく。
  • 1