タグ

parquetとamazon-athenaに関するnabinnoのブックマーク (4)

  • Athena でのパフォーマンスのチューニング - Amazon Athena

    このトピックでは、Athena クエリのパフォーマンスを向上させるための一般的な情報と具体的な提案、および制限やリソース使用量に関連するエラーの回避方法について説明します。 Service Quotas Athena では、クエリ実行時間、アカウント内の同時クエリ数、API リクエスト率などの指標に対してクォータを適用しています。これらのクォータの詳細については、「Service Quotas」を参照してください。これらのクォータを超えると、送信時またはクエリ実行中にクエリが失敗します。 このページのパフォーマンス最適化の多くのヒントは、クエリの実行時間を短縮するのに役立ちます。最適化によって容量の制限がなくなり、同時実行クォータ内でより多くのクエリを実行できるようになり、実行時間が長すぎたためにクエリがキャンセルされるのを防ぐことができます。 同時実行クエリと API リクエストの数のク

  • 列指向ストレージ形式 - Amazon Athena

    翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 列指向ストレージ形式 Apache Parquet や ORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。 列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。 列のデータ型に合わせて選択された圧縮アルゴリズムによる列ごとの圧縮で、Amazon S3 のストレージ領域を節約し、ディスク容量とクエリの処理中における I/O を削減します。 Parquet および ORC での述語プッシュダウンにより、Athena クエリが必要なブロックのみを取得できるようになり、クエリパフォーマンスが向上します。Athena クエリがデータから特定の列値を取得すると、データブ

  • Amazon Athena がついにINSERT INTOをサポートしたので実際に試してみました! | DevelopersIO

    ついにAmazon Athena がINSERT INTOをサポートしました!これまでは、更新系クエリはCTAS(CREATE TABLE AS)のみでしたが、INSERT INTOによる書き込みクエリがサポートされました。既存のテーブルに対してどのようにデータを追加するのか、どのレベルまでサポートしているのか、気になること満載なので実際に試してみます。 Amazon Athena adds support for inserting data into a table using the results of a SELECT query or using a provided set of values 目次 INSERT INTOのサポート内容 構文と例 データのファイルフォーマット INSERT INTO ... VALUEの動作を確認 パーティションしていないテーブルの検証 パー

    Amazon Athena がついにINSERT INTOをサポートしたので実際に試してみました! | DevelopersIO
  • Athena で改行を含む CSV を扱いたい場合は Glue ジョブで Parquet に変換する - ablog

    データの中身に改行を含む CSV を Athena でクエリすると正しく扱えなかったが、Glue ジョブで CSV を Parquet に変換すると改行を含むデータを扱うことができた。おそらく OpenCSVSerDe は改行に対応していないが、Parquet SerDe は改行に対応しているからではないかと思われる。 cr.csv を用意する。 c1,c2,c3_string 1,1,"test string" 2,2,"text string" 3,3,"string with cr" 4,4,"text string" S3 にアップロードする。 Glue のクローラで CSV をカタログに登録する。 Athena からCSV を参照すると改行で表示が崩れている。 Glue ジョブで Parquet に変換する。 import sys from awsglue.transforms

    Athena で改行を含む CSV を扱いたい場合は Glue ジョブで Parquet に変換する - ablog
  • 1