(追記)若干認識違いな部分があったので修正しました。 前回投稿で書いたように O’REILLYの「Hiveプログラミング」は、日本語による包括的なHiveノウハウリソースとして最適と言えそう。Hive & HBase連携部分なども少ないながら17章 ストレージハンドラとNoSQL にてページが割かれているので、気になった点を引用させてもらう。 HiveのクエリをNoSQLデータベースに対して実行する場合、NoSQLシステムのオーバーヘッドがあるために、そのパフォーマンスはHDFS上の通常のHiveやMapReduceのジョブより低いものになります。その理由の中には、通常のHDFSへのアクセスが完全なシーケンシャルI/Oであるのに対して、サーバーへのソケット接続や、下位層の複数のファイルのマージといった処理があるということがあります。 (略) システム全体の中で、NoSQLデータベースをHa