Apache Hiveは、SQLに似た言語(HiveQL)を使用して、データの抽出や変換などを行うことができます。しかし、Hiveは処理にMapReduceを使用しており、大規模データのバッチでの処理や、チュートリアル3(後述)のような柔軟な処理には適していますが、一般的に処理に時間がかるため、繰り返し分析を行うような用途に利用するのは難しいでしょう。 Cloudera Impalaは、大規模データのための高速なSQLエンジンです。残念ながらこのチュートリアルではその本来の力を発揮することができませんが、数十TBもの大量データに対するクエリでも、今回と同じ操作で同じように分析を行うことができることは覚えておいてください。 Impalaについての詳細は、以下のスライドを参考にしてください。 「Impala概要 道玄坂LT祭り 20150312」 「Evolution of Impala」 「