Impalaのファイルフォーマット 最適なファイルフォーマットを使用することは、優れたパフォーマンスを得るためには極めて重要です。これは、Impala アプリケーション(英語)でJSONがサポートされていない理由の一つです。実際に、1レコードでさえ全てのテキストレコードの構文解析や取得をすることは、パフォーマンスにひどいダメージを与えます。Impalaでは別の一連のフォーマットを推奨しています。 ここではjsonデータを含んだAvroフォーマットのHiveテーブルと、新しいParquetフォーマットのテーブルをどのようにして作成するのかを紹介しています。HadoopチュートリアルシリーズのEpisode 2 of the Season 2 (英語)の同じYelpデータを使用しています。 Avro 最初の手順はPigスクリプトの支援によりデータをJSONに変換することです。Pig Edito