タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

AWSとParquetに関するMAXIMUM-PROのブックマーク (1)

  • Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO

    先日『AWS re:Invent 2016』にて発表された新サービス『Amazon Athena』は、マニュアルにもある通りAWSが提供するフルマネージドHiveサービスと言えるでしょう。DWH用途で考えるとレコードをフルスキャンするよりも特定のカラムを集計・フィルタするというユースケースが多くなりそうですので、カラムナフォーマット『Parquet』を試したみたいと思いました。Parquetファイルの変換や、一般的なCSVとの簡単な比較をしてみました。(意外な結果が...) カラムナフォーマット『Parquet』とは データ分析では大福帳フォーマットのテーブルデータに対して、特定の列の値を集計したり、フィルタリングすることが多いため、カラム毎にデータが連続して格納されていると必要なデータのみをピンポイントで読み込むことができるからです。また、列方向には同じ種類のデータが並んでいるため、圧縮

    Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO
    MAXIMUM-PRO
    MAXIMUM-PRO 2019/07/26
    Athenaは、3上のCSVファイルにテーブル定義を適用するだけで、ファイルに変更を加える必要なく、高速にクエリを実行できる。CSVファイルをロードし直したり、変換する必要が無い点は強み
  • 1