Impalaを、軽ーくさわってみた記録。せっかくなのでHiveとも比較してみた。実行環境はAWSのm1.largeインスタンスに構築したHadoop疑似分散モード。セットアップ方法は前回投稿に記載。 サンプルデータをダウンロードする。マシンの適当な場所で以下実行。このリンクいつまであるかわからないけど、以前のHive演習用に使ったサンプルです。 $ wget http://image.gihyo.co.jp/assets/files/book/2012/978-4-7741-5389-6/download/sample.zip $ unzip sample.zip この中のtsvファイルを、HDFSにputする。これは相対パス指定。 $ hadoop fs -put /tmp/sales.tsv test/ Impala shellを起動して、テーブルを作成する。 元データはファイル名では