2. 発表の構成 機械学習のデータ並列処理 • 勾配降下法の基礎 • Distributed Gradient • Tree Reduce • AllReduce • Parameter Mixing • Parameter Server • Mix Server 2 4. 1. Distributed Gradient (Gradient Averaging) • 勾配計算の並列化 • 重みの更新は基本的に単一ノード • モデルは共有しない 2. Parameter Mixing (Model Averaging) • 確率的勾配降下法の学習処理を並列化 • 重みの更新が各学習器の計算ノードで行われ,その後 モデルの平均化処理が行われる • モデルを共有する 機械学習のデータ並列処理 機械学習のデータ並列処理手法は 基本的にこの2種類かその亜種に分類できる 4 5. 機械学習の分散処理の
![機械学習のデータ並列処理@第7回BDI研究会](https://cdn-ak-scissors.b.st-hatena.com/image/square/6b1843af7e6f4f2203c08d5c758bf332c65a925b/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fbdi20170329myui-170330042713-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)