備忘録がわりのメモ: VLDBに「SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures」というIBMの研究社による論文が公開されていました。 http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf ParquetとImpala、RCFileとHive、ORCとHive+TezなどをTPC-DSを使ったベンチマークの比較と考察があり、かなり興味深いです。最新バージョンでの比較ではないですが、かなりいろんな角度から比較をしているようなので、この夏に時間をかけてゆっくり読みたいところ。 #HDFS cachingの恩恵などもあるので、Imapala1.4はもっと速い(はず)