タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとGPUとgcloudに関するsh19910711のブックマーク (1)

  • GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog

    1. はじめに 2. 並列学習環境を調べる 並列学習方法を調べる ネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築する コンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Dockerbuild 6. つまずいたポイント 学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった 大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認 コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ

    GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog
    sh19910711
    sh19910711 2022/10/02
    GCPでやったのか👀 / "DeepSpeed が優秀過ぎてちょっと環境整えるだけ / GCP側もgVNICやFast Socket等のプリセット・環境が整備 / リージョンによっては A100 が無いリージョンがあったり、ゾーンによっても利用できる量が異なり"
  • 1