タグ

ブックマーク / qiita.com/yskazuma (1)

  • Hiveを導入・高速化したい時に最低限必要な知識 - Qiita

    お疲れ様です。ビッグデータという言葉が流行りだしてから幾星霜、皆さんの中でもそろそろ社内にビッグデータ処理基盤を作りたいという方がいるのではないでしょうか? というわけでSQL on Hadoopでよく知られるHiveを使う上で最低限必要だなと思う知識をまとめてみました。 PrestoやAWS Athena、Amazon Redshift Spectrumを使う場合でも裏側にはHiveのテーブルが必要な場合が多いと思いますので、知っておいて損は無いかと思います。 ##テーブル・データ設計 ###パーティションを設定する Hiveではテーブルにパーティションを設定する事でテーブルの検索・更新範囲を限定する事ができます。逆に言えばパーティションを設定しない場合、常にテーブル全体を検索・更新してしまうという事です。なのでパーティション設定は基的に必須です。 パーティションはデータをインポートす

    Hiveを導入・高速化したい時に最低限必要な知識 - Qiita
    tofy
    tofy 2018/06/25
    “CBO(Cost Based Optimizer)を利用するとテーブルのデータを元にクエリの実行計画を最適化してくれます。特にデメリットは無いのでONにしておきましょう。”
  • 1