エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
PySparkで日付毎にデータを蓄積する際のdf.write.modeについて - 山pの楽しいお勉強生活
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
PySparkで日付毎にデータを蓄積する際のdf.write.modeについて - 山pの楽しいお勉強生活
概要 PySparkでpartitionByで日付毎に分けてデータを保存している場合、どのように追記していけば良いの... 概要 PySparkでpartitionByで日付毎に分けてデータを保存している場合、どのように追記していけば良いのか。 先にまとめ appendの方がメリットは多いが、チェック忘れると重複登録されるデメリットが怖い。 とはいえ、overwriteも他のデータ消えるデメリットも怖いので、一長一短か。 説明用コード path = 's3://..../hoge/' df = spark.createDataFrame( [ ['a',1,'hoge','20190101'], ['b',2,'huga','20190201'], ['c',3,'piyo','20190301'] ], ['id','integer','string','date'] ) ( df .write .mode('overwrite') .partitionBy('date') .parquet(path) )