hiveにパーティションを導入すれば、パーツを指定してクエリを発行できるので、余計な読み込みを抑えて効率よく処理することができる。…ということで、チャチャッと演習(といいつつ長い)。 テーブル作成。 以下太字で示しているパーティションのkeyは、データに含まれていない値でかまわない。 hive> CREATE TABLE sales( id INT, shop_id STRING, date_id STRING ) PARTITIONED BY(dt STRING) ← パーティション用のkeyを指定。 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'; hive> LOAD DATA LOCAL INPATH '/home/hiveuser/20130101.tsv' OVERWRITE INT