タグ

CSVとApache Drillに関するyassan0627のブックマーク (2)

  • CSV ファイルを Parquet ファイルに変換してクエリを高速化 - nagix

    この記事は Apache Drill Advent Calendar 2015 の8日目の記事です。 Apache Drill では Apache Parquet という大規模データの分析に適したデータフォーマットを利用することができます。Row-oriented フォーマットにカテゴリ分けされる CSV、TSV といったテキストファイルや伝統的なリレーショナルデータベースのテーブルでは、データは行方向に沿って格納されますが、Column-oriented フォーマットにカテゴリ分けされる Parquet、ORC といった形式のデータは列方向に沿って格納されます。 データ分析用途には Column-oriented フォーマットが向いているとよく言われますが、データ分析では特定の列の値を集計したり、特定の列の条件を元にフィルタリングやジョインが行われることが多いため、列方向にデータが連続し

    CSV ファイルを Parquet ファイルに変換してクエリを高速化 - nagix
  • CSV に SQL でお手軽に問い合わせたい - 2016 年、冬(JOIN なども交えつつ)

    お手元の CSV ファイルを手軽に加工しようと思った場合、EXCEL 等のアプリケーションに取り込んで利用するのが一般的かと思います。 まぁ、ほとんどの場合はそれで十分なのですが。 「65,536 行までしか扱えない古いバージョンを考慮しなくてはいけない環境なので、そもそも EXCEL に取り込む為のデータを CSV から必要な分だけ抽出したい」 ですとか、 「こっちとあっちの CSV を結合した結果を加工して出力したい」 ですとか、 「てゆうか、 直接 CSVSQL で問い合わせたいんじゃー」 みたいな欲求が、この記事を開いたような方には稀に良くあるのだと思います。 そこで、今回は CSVSQL で問い合わせる方法について、JOIN 等も考慮しつつ、なるべく色々なケースを見た上で、最後に簡単な比較をしてみようと思います。 また、GUI アプリケーションを使った方法も、少しです

    CSV に SQL でお手軽に問い合わせたい - 2016 年、冬(JOIN なども交えつつ)
  • 1