Bigqueryはしばらく前から、AVROフォーマットでデータをエクスポートできるようになっています。 AVROフォーマットは、Apacheプロジェクトの一つとして開発されているシリアライズフォーマットで、以下の様な特徴を持ちます。 バイナリフォーマットでとてもコンパクト 型情報を持ったスキーマがある、スキーマはJSONで定義する JSONの様に入れ子が可能 null可かどうかをスキーマで表現可能 シリアライズして出力した後でも別のスキーマに変更できる 恐らく一番大きな特徴は型付きでバイナリにシリアライズしているのに、後からカラムを追加したり削除して読み出すことができる点です。 スキーマ情報はファイル内に埋め込まれていますが、別途定義したものと組み合わせて読み出すことができ、後からデフォルト値を追加したりできるようになっています。 また、Hadoopから直接データを読み出せるライブラリが揃