PySparkで日付毎にデータを蓄積する際のdf.write.modeについて - 山ｐの楽しいお勉強生活

テクノロジーカテゴリーの変更を依頼記事元:

yamap55.hatenablog.com

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

PySparkで日付毎にデータを蓄積する際のdf.write.modeについて - 山ｐの楽しいお勉強生活

概要 PySparkでpartitionByで日付毎に分けてデータを保存している場合、どのように追記していけば良いの... 概要 PySparkでpartitionByで日付毎に分けてデータを保存している場合、どのように追記していけば良いのか。先にまとめ appendの方がメリットは多いが、チェック忘れると重複登録されるデメリットが怖い。とはいえ、overwriteも他のデータ消えるデメリットも怖いので、一長一短か。説明用コード path = 's3://..../hoge/' df = spark.createDataFrame( [ ['a',1,'hoge','20190101'], ['b',2,'huga','20190201'], ['c',3,'piyo','20190301'] ], ['id','integer','string','date'] ) ( df .write .mode('overwrite') .partitionBy('date') .parquet(path) )

ブックマークしたユーザー

nitamago_monster2020/11/13

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx