タグ

hadoopとdataに関するgirledのブックマーク (1)

  • Hiveでパーティションを利用する – OpenGroove

    hiveにパーティションを導入すれば、パーツを指定してクエリを発行できるので、余計な読み込みを抑えて効率よく処理することができる。…ということで、チャチャッと演習(といいつつ長い)。 テーブル作成。 以下太字で示しているパーティションのkeyは、データに含まれていない値でかまわない。 hive> CREATE TABLE sales( id INT, shop_id STRING, date_id STRING ) PARTITIONED BY(dt STRING) ← パーティション用のkeyを指定。 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'; hive> LOAD DATA LOCAL INPATH '/home/hiveuser/20130101.tsv' OVERWRITE INT

    girled
    girled 2015/03/03
    それなりのaccess_logをHiveでselectするとクエリが止まったりDatanode死んだりしてて原因よくわかんなかったけど適度にパーティション切ればいけそうな気がしたのっ今日試す!
  • 1