Parquetに初めて触れて、データ構造とか色々調べたのでメモとして残します。 Parquetとは Apache ParquetはHadoopエコシステムなどで主に利用される オープンソースのファイルフォーマット。 特徴 カラムナフォーマット(列志向) csvなど行志向フォーマットと比べて、不要なカラムを読まずにすむので分析クエリが高速になる。 プログラム言語やデータ処理基盤(Hadoop, Spark etc)に依存せずに利用可能。 ネストされたデータタイプもサポートしている。 フォーマット 公式のドキュメントによると FileはいくつかのRawGroupに論理的に水平分割される。 RawGroupには1つ以上のColumn Chunkに分けられる。 Column Chunkははさらに1つ以上のPageに分割される。 圧縮とエンコーディングはPageのメタデータで定義されているため以上分
![Parquetファイルについて](https://cdn-ak-scissors.b.st-hatena.com/image/square/d40cab9a33dc7873b212e866613426f2afa4b574/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--nP7Gi38c--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3AParquet%2525E3%252583%252595%2525E3%252582%2525A1%2525E3%252582%2525A4%2525E3%252583%2525AB%2525E3%252581%2525AB%2525E3%252581%2525A4%2525E3%252581%252584%2525E3%252581%2525A6%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3AStuffy86%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzgyNGYyMTYxMmIuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)