タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

parquetに関するswfzのブックマーク (2)

  • parquet-toolsを使ってParquetファイルの中身やスキーマを確認する方法 | Lancork

    ※当ブログではアフィリエイト広告を利用しています。 Apache Hive のテーブルでサポートされているファイルフォーマットのPARQUETは、ファイル単体では中身を確認するのが困難です。 Parquet ファイルを検査できるツール parquet-tools を使って中身を確認してみたので、その方法をメモします。 parquet-tools とは Apache Parquet が公開している Java ベースのコマンドラインツールです。Parquet ファイルの中身・スキーマ・メタ情報などをコマンドラインから簡単に確認することができます。 ソースコードは GitHub で公開されています。 GitHub – apache/parquet-mr at parquet-1.11.x ※2021/01/16追記 masterbranch ではこちらのCommitでparquet-toolsか

    parquet-toolsを使ってParquetファイルの中身やスキーマを確認する方法 | Lancork
    swfz
    swfz 2018/06/18
  • CSV ファイルを Parquet ファイルに変換してクエリを高速化 - nagix

    この記事は Apache Drill Advent Calendar 2015 の8日目の記事です。 Apache Drill では Apache Parquet という大規模データの分析に適したデータフォーマットを利用することができます。Row-oriented フォーマットにカテゴリ分けされる CSV、TSV といったテキストファイルや伝統的なリレーショナルデータベースのテーブルでは、データは行方向に沿って格納されますが、Column-oriented フォーマットにカテゴリ分けされる Parquet、ORC といった形式のデータは列方向に沿って格納されます。 データ分析用途には Column-oriented フォーマットが向いているとよく言われますが、データ分析では特定の列の値を集計したり、特定の列の条件を元にフィルタリングやジョインが行われることが多いため、列方向にデータが連続し

    CSV ファイルを Parquet ファイルに変換してクエリを高速化 - nagix
  • 1