エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Parquetファイルについて
Parquetに初めて触れて、データ構造とか色々調べたのでメモとして残します。 Parquetとは Apache Parque... Parquetに初めて触れて、データ構造とか色々調べたのでメモとして残します。 Parquetとは Apache ParquetはHadoopエコシステムなどで主に利用される オープンソースのファイルフォーマット。 特徴 カラムナフォーマット(列志向) csvなど行志向フォーマットと比べて、不要なカラムを読まずにすむので分析クエリが高速になる。 プログラム言語やデータ処理基盤(Hadoop, Spark etc)に依存せずに利用可能。 ネストされたデータタイプもサポートしている。 フォーマット 公式のドキュメントによると FileはいくつかのRawGroupに論理的に水平分割される。 RawGroupには1つ以上のColumn Chunkに分けられる。 Column Chunkははさらに1つ以上のPageに分割される。 圧縮とエンコーディングはPageのメタデータで定義されているため以上分