2019年6月10日のブックマーク (1件)

  • 2019-06-10 weeklyまとめ

    株式会社FiNC Technologiesを退職した 株式会社FiNC Technologiesを退職しますに予告を書きましたが、退職しました。 最後にぼくがかんがえたさいきょうのSparkアーキテクチャが無事出来たので、とりあえず満足いく終わりになりました。 Sparkと戯れていた 先週に引き続き、AWS Glueを使ってPySparkで開発をしてました。 様々なテーブルをjoinし、ユーザごとにデータを集計して /user_id/output_name といったパスに一人づつJSONファイルに出力していましたが、これが遅くなった原因でした。 ユーザを何人かのパーティションにまとめ、 /output_name/partition_key といった複数人をまとめて1つのJSONファイルに出力したところ、数時間かかってた出力処理が数分で終わるようになりました。 書き出し対象はS3なので、ネッ

    ota42y
    ota42y 2019/06/10
    先週はだいたいSparkやってた⊂(・8・)⊃