タグ

ブックマーク / zenn.dev/dhirooka (1)

  • TensorFlow・PyTorchによる分散学習

    深層学習モデルの学習は、学習データの一部を抽出・勾配を計算するミニバッチ学習によって行われることが一般的です。勾配のばらつきを抑えるためには、ある程度のバッチサイズを保持する必要があります。一方で、バッチサイズの上限は利用するマシン(GPUやTPU)のメモリによって制約を受けるため、大規模なモデルや高解像度画像などを用いる際には、バッチサイズを小さくせざるを得ない場合があります。 これに対して複数のGPUや計算ノードを利用できる場合には、並列化によって単一GPUの時よりも大規模な学習を行うことができます。複数の計算機を用いた並列学習(分散学習)には大きく分けてデータ並列とモデル並列が存在しており、合わせて利用することもできます。 データ並列(Data Parallel):ミニバッチを複数の計算機に分散する方法 モデル並列(Model Parallel):一つのモデルを複数の計算機に分散する

    TensorFlow・PyTorchによる分散学習
  • 1