タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

pytorchとabciに関するdannのブックマーク (2)

  • ABCI上でpytorch distributed data parallelによるマルチノード学習 - Qiita

    なんの記事? pytorchのDistributedDataParallelについての日語記事があまりにもなかったため,素人がまとめました. 並列処理がわからない人による,わからない人のための,とりあえず使えればいいや的なDDPの解説です. 基的にABCIでの実行を前提に書かれていますが,それ以外の環境の人たちにも参考になれば幸いです. はじめに おなじみの機械学習フレームワークであるpytorch.気軽にDataParallelで並列処理の学習もできます. ですがfacebookなどの一流の機械学習エンジニアたちはDistributedDataParallelなるものを使った実装がちらほらみられます. そこでpytorchの解説記事を読むわけですが,これがびっくりするほどわからない. というわけで,ABCI上でのDistributedDataParallel(以下DDP)の使い方を自

    ABCI上でpytorch distributed data parallelによるマルチノード学習 - Qiita
  • PyTorch - ABCI 2.0 User Guide

    はじめに ABCIシステムの概要 ABCIの利用開始 ジョブ実行 ストレージ Environment Modules Python GPU MPI コンテナ 開発ツール 付録 各種アプリケーション Tips ABCI クラウドストレージ ABCI データセット ABCI Singularity エンドポイント Open OnDemand FAQ 既知の問題 システム更新履歴 運転状況 お問い合わせ リンク PyTorch ここでは、PyTorchをpipで導入して実行する手順を説明します。具体的には、PyTorchを導入して実行する手順と、PyTorchとHorovodを導入して分散学習を実行する手順を示します。 PyTorchの単体実行 前提 grpnameはご自身のABCI利用グループ名に置き換えてください Python仮想環境はインタラクティブノードと各計算ノードで参照できるよう、ホ

  • 1