エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Glueの使い方的な⑤(パーティション分割してるcsvデータをパーティション分割したparquetに変換) - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Glueの使い方的な⑤(パーティション分割してるcsvデータをパーティション分割したparquetに変換) - Qiita
パーティション分割csv->パーティション分割parquet ジョブの内容 ※"Glueの使い方①(GUIでジョブ実行)"(... パーティション分割csv->パーティション分割parquet ジョブの内容 ※"Glueの使い方①(GUIでジョブ実行)"(以後①とだけ書きます)と同様のcsvデータを使います "パーティション分割されたcsvデータを同じパーティションで別の場所にparquetで出力する" ジョブ名 se2_job4 クローラー名 se2_in1 se2_out3 全体の流れ 前準備 ジョブ作成と修正 ジョブ実行と確認 出力データのクローラー作成、実行、Athenaで確認 別のカラムでパーティション分割 ※①のGUIで作成したPySparkスクリプトに最小限の変更を入れる形で進めます 前準備 ソースデータ(19件) 内容としては①と同じデータで、year,month,day,hourのパーティションごとに分けたcsvファイルを配置します。 year,month,day,hourのカラムは削除しています。