Deep Learning していると、学習にとても時間がかかるのがネックになる。 時間だけでなく、メモリもいっぱい必要になる。 今はGPUなるものがあり、これを使うと計算処理が一気に早くなると言われている。 GPUの計算性能は、CPUの50倍以上とか言われているのだが、実際にはそこまで高速にDeep Learningできるようにはならない。 GPUを使う場合には、GPUにデータを送ったり、GPUからデータを受け取ったりなど、CPUとGPUの間でのデータのやり取りが発生し、この量が半端ではない。このため、実際の速度向上は10倍程度にしかならない。 でも、もっと高速にしたいと思ったらどうすればよいだろうか。 多数のGPUを同時に使えば、どんどん高速になるのではないだろうか。 分散して学習する場合に問題になるのは、別々のGPUで学習した結果をまとめて、それをまた全GPUに分配し直すという作業が
