タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

parquetに関するHHRのブックマーク (2)

  • Parquetフォーマット概観 - 発明のための再発明

    Parquetは便利なファイル形式で、列志向のフォーマットとしてはデファクトの1つと言っても過言ではないでしょう。 ですが、jsonやcsvとは違い、ファイルを見ただけでどんな構造かわかるものではありません。 この記事は、Parquetの具体的な構造について記述します。 はじめに この投稿は、Parquetの構造について、バイナリを見ながら確認するものです。 ただし、Parquetの大枠に注目した投稿なので、delta encodingやrun-lengthなど、個別の圧縮方法については取り扱いません。 ※ Parquetの作成には https://github.com/parquet-go/parquet-go を使用していますが、goの知識は必要ありません tldr Parquetは以下の構造を持っています。 ファイルはRowGroupとメタデータに分かれている RowGroupの中に

    Parquetフォーマット概観 - 発明のための再発明
    HHR
    HHR 2024/09/23
  • AWS S3 コスト削減を目的に CSV から Apache Parquet に乗り換えるための下調べ | TECHSCORE BLOG | TECHSCORE BLOG

    これは TECHSCORE Advent Calendar 2019 の7日目の記事です。 Amazon Simple Storage Service という名の通り、S3 は提供されているサービス内容は非常にシンプルなのですが利用時の用途が多岐にわたります。 利用用途が多岐にわたるという事は、注意して管理しないとカオスに陥る可能性があり、「一時的に置いているつもりだった」「そのうちに対応するつもりだった」という野良データがいつの間にか業務に組み込まれてしまい簡単に手が出せなくなる事態に発展する場合もあります。 私が普段利用している AWS アカウントの中で最も運用歴の長いものにも、何やらよろしくないデータが存在することが分かりました。 AWS を適切に利用出来ているかコストの面から調査をしている担当者から「S3 のストレージ利用量、勢いよく増加している理由は何?」と聞かれて即答できず、調

    HHR
    HHR 2021/08/11
    列指向なので件数に比例して圧縮メリットが上がる(件数に対してスケールする)
  • 1