備忘録がわりのメモ: VLDBに「SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures」というIBMの研究社による論文が公開されていました。 http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf ParquetとImpala、RCFileとHive、ORCとHive+TezなどをTPC-DSを使ったベンチマークの比較と考察があり、かなり興味深いです。最新バージョンでの比較ではないですが、かなりいろんな角度から比較をしているようなので、この夏に時間をかけてゆっくり読みたいところ。 #HDFS cachingの恩恵などもあるので、Imapala1.4はもっと速い(はず)
![VLDBにSQL on Hadoopの論文が出ています](https://cdn-ak-scissors.b.st-hatena.com/image/square/f05e6366da02da0a5401eb2def43c7d700433518/height=288;version=1;width=512/https%3A%2F%2Flinux.wwing.net%2FWordPress%2Fwp-content%2Fthemes%2Fcocoon-master%2Fscreenshot.jpg)