はじめに 今回から3回に渡って、Hadoop上で動作するデータ処理ソフトウェアの1つであるApache Impala(incubating)(以下、Impala)について、以下の流れで説明していきます。 Impala概要(今回) クエリ実行時の並列化の仕組み(第18回) I/O処理における高速化の仕組み(第19回) Impalaの特徴のすべてをお伝えできるわけではありませんが、Impalaの速度に対する取り組みについて参考になれば幸いです。 今回は、Impalaが開発されるに至った背景や特徴、および動作の概要までを紹介していきます。 Impala開発の背景 これまでの連載内でも触れられてきましたが、ImpalaはHadoop上でSQL(正確にはHive Query Language/HiveQL)を高速に処理するために開発された並列データ処理系です。Impala以前から、SQLを実行するH
![第17回 Impalaの設計と実装[1] | gihyo.jp](https://cdn-ak-scissors.b.st-hatena.com/image/square/cd09bc83c4879217a10dcebdad73fce873ecd41d/height=288;version=1;width=512/https%3A%2F%2Fgihyo.jp%2Fassets%2Fimages%2FICON%2F2015%2F1379_howhadoopworks.png)