なんやかんやありtez on dockerな環境はこちらのsequenceiq/tez:latestが使えて、dockerhubにあがっているのでお試ししたいひとはそれでいい説もあるのですが、データも何も乗っていないので実行計画の検証とかできないので困りました。pigについてくるログをどうにかするHQLをあれするdockerfileを書き中なのですが、今週末では間に合わなさそうなので適当にお茶を濁す的なエントリです。 Hive on Tezの最適化の違い例についてはこれとかに書いてあるので、その内容については割と前から知られているのではないかと思いますが、要するにMap Multi Reduce最強伝説な感もあり、まあなんというか世の中そんなもんだよね感もあります。たぶんもっといけてる例はあるはず。 ちなみにTPC-DSをまんま例にせずにわざわざpigについてくるログを使おうとしているのは