タグ

openmpiとjobschedulerに関するdannのブックマーク (1)

  • Slurmでpytorch distributed trainingをする - Qiita

    Introduction 環境 slurm 18.08 pytorch 1.3 What is Slurm? Slurmは、スパコンやコンピュータクラスタなどで主に科学技術計算用途で用いられるジョブスケジューラの一種。SGE, Torque, LSFなどを使ったことがあれば同様のものと思ってもらっていい。 私は過去、SGEとLSFは使ったことがあるが、簡単にSlurmのいいところをあげると srunが便利(submit用のscriptを作らなくても、インタラクティブにコマンドを実行できる) GPUのリソース管理ができる(GPUを使用するプログラムで排他的にDeviceを確保できる) 複数ノード・複数プロセスでの並列実行のサポートが充実している。 今回の話は3つ目の特徴について。 What is PyTorch? Facebookが開発したDeep learningのフレームワーク。 なぜS

    Slurmでpytorch distributed trainingをする - Qiita
  • 1