エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
データソースをCSVからParquetに変換してAthenaのスキャン量を改善する - Legoliss’s blog
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
データソースをCSVからParquetに変換してAthenaのスキャン量を改善する - Legoliss’s blog
AWS Athenaは簡単に大規模データにクエリが投げられてとても便利ですが、GBサイズ以上のCSVファイルをデ... AWS Athenaは簡単に大規模データにクエリが投げられてとても便利ですが、GBサイズ以上のCSVファイルをデータソースにするとスキャン量が増え、クエリ内容によってはタイムアウトしてしまったり、メモリ枯渇でエラー終了したりします。 今回はこういった場合にデータソースの形式を変更してデータスキャン量を改善する方法をご紹介します。 AWS Athena そもそもAthenaって何? 今回お話するケース 先に結論 Parquetファイルへの変換方法 手順1.のSQL 手順2.のSQL 手順3.のSQL 実験 CSV カラムを指定しない場合 カラムを指定した場合 Parquet カラムを指定しない場合 カラムを指定した場合 まとめ そもそもAthenaって何? ご存知ない方のためにざっくり説明すると以下のようなサービスです。 S3上のデータソースへ直接SQLを投げられるサービス. 所謂サーバレス

