タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

impalaとORCに関するshunmatsuのブックマーク (1)

  • Prestoのパフォーマンス - Qiita

    きっかけ アドテクスキルアップゼミ カラムナーデータベース検証まとめという記事が公開されたのですが,Presto/Impalaの結果があまりにも散々で,これはさすがに何かおかしいんじゃないかという話になってました. 今だとすでに記事に注釈が入ってますが,Presto/Impalaは生のテキストファイルを対象にしていたのが原因でした.なので,その辺について少し書き,実際Prestoはどんなもんなのかというのを簡単に示します. 列指向ファイルフォーマット Presto/Impalaが生のテキストファイルだったのに対し,他のクエリエンジンは違うフォーマットでデータを保存していて,これがかなり結果に響いてます.Redshift,BigQuery,Treasure Dataなど,データ解析系のサービスは皆列指向フォーマットを採用していて,データインポート時に勝手に変換が行われます.列指向フォーマット

    Prestoのパフォーマンス - Qiita
  • 1