yuisekiのブックマーク - はてなブックマーク

Parquetファイルについて
Parquetに初めて触れて、データ構造とか色々調べたのでメモとして残します。 Parquetとは Apache ParquetはHadoopエコシステムなどで主に利用されるオープンソースのファイルフォーマット。特徴カラムナフォーマット(列志向) csvなど行志向フォーマットと比べて、不要なカラムを読まずにすむので分析クエリが高速になる。プログラム言語やデータ処理基盤(Hadoop, Spark etc)に依存せずに利用可能。ネストされたデータタイプもサポートしている。フォーマット公式のドキュメントによると FileはいくつかのRawGroupに論理的に水平分割される。 RawGroupには1つ以上のColumn Chunkに分けられる。 Column Chunkははさらに1つ以上のPageに分割される。圧縮とエンコーディングはPageのメタデータで定義されているため以上分
yuiseki 2024/04/11
リンク
1

はてなブックマーク