タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

HadoopとHiveに関するJ138のブックマーク (1)

  • blog.katsuma.tv - hadoop Archive

    HiveでのSQLことHQLの小ネタ。HQLでは基的にSQLはほぼ完璧に利用できますが、たまにハマりポイントもあります。その1つが並び替えのORDER BY。 ORDER BYとSORT BY HQLの文法的にORDER BYは有効ですが、実際は並び替えは行われません。(無視されているような感じ)Hiveでは代わりに「SORT BY [column]」を利用することになります。 ただし、ここでも罠があって、SORT BYは結果がreducerの数に依存します。(各reducerがsort処理をしたものがマージされるものになるので、全体としてはおかしな結果を得ることになります) 通常、reducerは複数走っているはずなので、結局SORT BYを利用してもORDER BYと同等の結果を得ることができません。 では、どうするか?と言うと明示的にreducerの数を1に指定してからSORT B

  • 1