タグ

ブックマーク / qiita.com/seikei1874 (1)

  • Apache Sparkが遅かったり、落ちちゃう時に試してみるオプション - Qiita

    Sparkで機械学習をするとき、前処理もSparkでやりますよね。 前処理って面倒ですよね。カテゴリ値とか連続値とか合成変数とか。 無邪気に変数を定義するデータサイエンティストにイラっとします。 さて、ある程度の大きさのデータを処理すると、 タイムアウトとかOOMとか、処理が遅かったりしますね。 そんなときに試してみると良いかもしれないオプションです。 Dynamic Allocation 無駄なリソースを使わないことに越したことはないので、動的リソース確保ができるようにします。 DynamicAllocationを有効にするには、ShuffleServiceも有効にする必要があります。 使われないExecutorが削除されるので、Shuffleのファイルを別な場所に退避させておくためです。 spark.dynamicAllocation.enabled spark.shuffle.ser

    Apache Sparkが遅かったり、落ちちゃう時に試してみるオプション - Qiita
    agw
    agw 2022/02/02
    「タスク再実行」、「spark.speculation」。
  • 1