タグ

2021年9月4日のブックマーク (2件)

  • オンライン分散並列学習

    ミニバッチ確率的降下勾配法 各更新で$B$個のデータ(ミニバッチ)を使って並列で勾配を計算し,その平均を使って,パラメータを更新する $B$個は,毎回独立同分布でサンプリングする 並列プロセスは更新のたびに同期する必要が有る Bulk Synchronous Parallel (BSP)とよばれる Parallel SGD 更新のたび毎回同期して平均計算するのではなく,最後に平均をとる 学習データを並列プロセス数$P$で分割する プロセスごとに,確率的降下勾配法を$T$回反復して$\bold{w}_p^{(T+1)}$を得る 平均$\frac{1}{P} \sum_p \bold{w}_p^{(T+1)}$をとる 損失関数が凸で,その勾配がリプシッツ連続なら最適解に収束する Iterative Parameter Mixture (IPM) 最後に平均をとるのではなく,各プロセスが担当する

  • 分散深層学習を支える技術:AllReduceアルゴリズム - Preferred Networks Research & Development

    記事は、2017年インターンシップを経て現在はアルバイトとして勤務されている上野さんによる寄稿です 数式が正しく表示されない場合は、こちらのリンクから再読込をお試しください。 みなさんはじめまして。Preferred Networksの2017夏季インターンに参加し、現在アルバイトをしている上野裕一郎です。普段は東京工業大学でHigh-Performance Computingに関する研究を行っており、分散・並列計算に興味があります。 今回は、分散深層学習を行う際に使用されるAllReduceという通信パターンについて調査・実装・評価を行いましたので、それについてご説明いたします。 分散深層学習とは 現在、ディープニューラルネットワークを用いた学習には長い時間がかかることが知られています。そして、様々な種類のモデルや、大量のデータを組み合わせて学習を試すためには、学習にかかる時間を短縮す

    分散深層学習を支える技術:AllReduceアルゴリズム - Preferred Networks Research & Development