タグ

2021年5月21日のブックマーク (5件)

  • 外部パーティション分割データの読み込み  |  BigQuery  |  Google Cloud

    デジタル トランスフォーメーションを加速 お客様がデジタル トランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

    外部パーティション分割データの読み込み  |  BigQuery  |  Google Cloud
    nilab
    nilab 2021/05/21
    「Hive パーティショニングは、命名規則を使用して、外部データが複数のファイルにまとめ、ファイルを複数のパーティションに分割することを意味します」
  • SerDe を使用する - Amazon Athena

    Athena は、さまざまなデータ形式からのデータを解析する複数の SerDe (Serializer/Deserializer) ライブラリをサポートしています。Athena でテーブルを作成する際に、データの形式に対応する SerDe を指定できます。Athena はカスタム SerDe をサポートしません。 Athena は SerDe ライブラリを使用して、CSV、TSV、カスタム区切り、JSON 形式からテーブルを作成したり、Hadoop 関連形式の ORC、Avro、Parquet からデータを作成したり、Logstash、AWS CloudTrail ログ、Apache WebServer ログからログを作成したりできます。これらの各データ形式には、Athena がデータの解析に使用できる 1 つ以上のシリアライザー-デシリアライザー (SerDe) ライブラリがあります。

    nilab
    nilab 2021/05/21
    「Athena は、さまざまなデータ形式 (CSV、JSON、Parquet、ORC など) のデータを解析するために複数の SerDe ライブラリをサポートしています。Athena はカスタム SerDes をサポートしていません」
  • Speed up Amazon Athena Queries using Partition Projection

    nilab
    nilab 2021/05/21
    Speed up Amazon Athena Queries using Partition Projection - YouTube
  • Amazon Athena でパーティション射影を使用する - Amazon Athena

    Athena では、高度にパーティションされたテーブルのクエリ処理を高速化し、パーティション管理を自動化するためにパーティション射影を使用できます。 パーティション射影では、Athena は AWS Glue のテーブルに直接設定したテーブルプロパティを使用してパーティション値と場所を計算します。テーブルプロパティにより、Athena は AWS Glue Data Catalogで時間をかけてメタデータを検索しなくても、必要なパーティション情報を「射影」または決定できます。多くの場合、インメモリオペレーションはリモートオペレーションよりも高速であるため、パーティション射影は高度にパーティションされたテーブルに対するクエリの実行時間を短縮できます。クエリおよび基盤となるデータの特定の特性によっては、パーティション射影によって、パーティションメタデータの取得時に制限されているクエリのクエリラ

    nilab
    nilab 2021/05/21
    「デフォルトでは、Athena はs3://<bucket>/<table-root>/partition-col-1=<partition-col-1-val>/partition-col-2=<partition-col-2-val>/ただし、データの編成が異なる場合、Athena はこのパステンプレートをカスタマイズするためのメカニズムを提供」
  • Athena でのデータのパーティション化 - Amazon Athena

    データをパーティションすることで、各クエリによってスキャンされるデータの量を制限できるようになるため、パフォーマンスが向上し、コストが削減されます。任意のキーでデータをパーティションに分割することができます。一般的な方法では、時間に基づいてデータをパーティションします。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータを年、月、日、時間でパーティションできます。別の例として、データが配信されるソースが多数に分かれているものの、それらのロードは 1 日 1 回だけ行われる場合には、データソースと日付によるパーティションを行います。 Athena では Apache Hive スタイルのパーティションを使用できます。このパーティションのデータパスには、等号で連結されたキーと値のペア (例えば country=us/... または year=20

    nilab
    nilab 2021/05/21
    データのパーティション分割 - Amazon Athena