タグ

ブックマーク / zenn.dev/shopan (1)

  • Parquetファイルについて

    Parquetに初めて触れて、データ構造とか色々調べたのでメモとして残します。 Parquetとは Apache ParquetはHadoopエコシステムなどで主に利用される オープンソースのファイルフォーマット。 特徴 カラムナフォーマット(列志向) csvなど行志向フォーマットと比べて、不要なカラムを読まずにすむので分析クエリが高速になる。 プログラム言語やデータ処理基盤(Hadoop, Spark etc)に依存せずに利用可能。 ネストされたデータタイプもサポートしている。 フォーマット 公式のドキュメントによると FileはいくつかのRawGroupに論理的に水平分割される。 RawGroupには1つ以上のColumn Chunkに分けられる。 Column Chunkははさらに1つ以上のPageに分割される。 圧縮とエンコーディングはPageのメタデータで定義されているため以上分

    Parquetファイルについて
    yuiseki
    yuiseki 2024/04/11
  • 1