強化学習の並列化を行っている研究(昨日の)はテーブル形式の状態行動空間(Qテーブル)を各プロセッサに分割する方法が取られている。しかし、状態行動空間が巨大な場合はテーブル形式で表すことはできずニューラルネットなどを用いて状態を汎化する方法がとられる(関数近似)。そのようなわけで、ニューラルネットを用いた強化学習の並列化はどうすればよいか気になっていた。 ニューラルネットの並列化はどうやるか?という点がそもそも疑問。ニューラルネットはPDP(Parallel Distributed Processing:並列分散処理)とも呼ばれそれ自身で並列分散計算を行っているが、並列計算機への実装という観点からはどうか? あるデータ群Aで正しく出力するように学習したニューラルネットAとそれとは別のあるデータ群Bで正しく出力するように学習したニューラルネットBがあるとする。このとき、AとB両方のデータ群を入