ミニバッチ確率的降下勾配法 各更新で$B$個のデータ(ミニバッチ)を使って並列で勾配を計算し,その平均を使って,パラメータを更新する $B$個は,毎回独立同分布でサンプリングする 並列プロセスは更新のたびに同期する必要が有る Bulk Synchronous Parallel (BSP)とよばれる Parallel SGD 更新のたび毎回同期して平均計算するのではなく,最後に平均をとる 学習データを並列プロセス数$P$で分割する プロセスごとに,確率的降下勾配法を$T$回反復して$\bold{w}_p^{(T+1)}$を得る 平均$\frac{1}{P} \sum_p \bold{w}_p^{(T+1)}$をとる 損失関数が凸で,その勾配がリプシッツ連続なら最適解に収束する Iterative Parameter Mixture (IPM) 最後に平均をとるのではなく,各プロセスが担当する