タグ

parquetとaws-glueに関するnabinnoのブックマーク (4)

  • AWS Glue で Parquet 形式を使用する - AWS Glue

    * AWS Glue バージョン 1.0+ でサポート 例: S3 から Parquet ファイルまたはフォルダを読み取る 前提条件: 読み取りたい Parquet ファイルまたはフォルダへの S3 パス (s3path) が必要です。 設定: 関数オプションで format="parquet" を指定します。connection_options で、paths キーを使用して s3path を指定します。 リーダーが S3 とやり取りする方法は、connection_options で設定できます。詳細については、AWS Glue: S3 接続パラメータ の「ETL の接続タイプとオプション」を参照してください。 リーダーが Parquet ファイルを解釈する方法は、format_options で設定できます。詳細については、「Parquet 設定リファレンス」を参照してください。 次

  • Glueでcsvファイルをparquet形式に変換してみた - Qiita

    AWS DASの勉強で初めてGlueを触ったのでメモ Parquet形式とは AWSドキュメントより Apache Parquet や ORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。 列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。 列のデータ型に合わせて選択された圧縮アルゴリズムによる列ごとの圧縮で、Amazon S3 のストレージ領域を節約し、ディスク容量とクエリの処理中における I/O を削減します。 Parquet および ORC での述語プッシュダウンにより、Athena クエリが必要なブロックのみを取得できるようになり、クエリパフォーマンスが向上します。Athena クエリがデータから特定の列値を取得すると、データブロック述語からの統計 (最大値や最小値など)

    Glueでcsvファイルをparquet形式に変換してみた - Qiita
  • データを Apache パーケットに変換するための 3 つの AWS Glue ETL ジョブタイプ - AWS 規範ガイダンス

    AWS Glue ジョブを使用してデータを Apache パーケットに変換する方法の概要 Amazon Web Services (AWS) クラウドでは、AWS Glue は完全マネージド型の抽出、変換、読み込み (ETL) サービスです。AWS Glue を使用すると、データの分類、クリーニング、エンリッチメント、さまざまなデータストアやデータストリーム間での確実なデータ移動を費用対効果の高い方法で行うことができます。 このパターンでは、AWS Glue でさまざまなジョブタイプが提供され、3 つの異なるスクリプトを使用して ETL ジョブの作成を示しています。 AWS Glue を使用して Python シェル環境で ETL ジョブを記述できます。マネージド Apache Spark 環境で Python (PySpark) または Scala を使用して、バッチ ETL ジョブとス

  • Athena で改行を含む CSV を扱いたい場合は Glue ジョブで Parquet に変換する - ablog

    データの中身に改行を含む CSV を Athena でクエリすると正しく扱えなかったが、Glue ジョブで CSV を Parquet に変換すると改行を含むデータを扱うことができた。おそらく OpenCSVSerDe は改行に対応していないが、Parquet SerDe は改行に対応しているからではないかと思われる。 cr.csv を用意する。 c1,c2,c3_string 1,1,"test string" 2,2,"text string" 3,3,"string with cr" 4,4,"text string" S3 にアップロードする。 Glue のクローラで CSV をカタログに登録する。 Athena からCSV を参照すると改行で表示が崩れている。 Glue ジョブで Parquet に変換する。 import sys from awsglue.transforms

    Athena で改行を含む CSV を扱いたい場合は Glue ジョブで Parquet に変換する - ablog
  • 1