WebGLとCUDAで動く深層学習用のライブラリを作って深層強化学習 (Deep Deterministic Policy Gradient, DDPG) で二足歩行を学習させました。学習環境の作成にはOimoPhysicsを使いました。 開発の経緯や以下実装方法、学習結果などです。例によって怪しい個所へのツッコミは歓迎です。 >> Open Repository on GitHub これまでの流れ 前回の続きです。前回作ったプログラムを拡張してライブラリ化、その上で強化学習を行うプログラムを作成、WebGLとCUDAに対応させて二足歩行を学習といった流れになりました。 全結合NNから計算グラフへ 前回のプログラムでは全結合ニューラルネットワークに対する偏微分の計算方法をハードコーディングで実装していたため、全結合NN以外のモデルを使った学習ができませんでした。そこで、より一般的なモデルに
![深層学習用ライブラリを自作して二足歩行を学習させてみた – EL-EMENT blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/7efca5defb58ffbea1eb619960d822ef921d3ee2/height=288;version=1;width=512/http%3A%2F%2Fel-ement.com%2Fblog%2Fwp-content%2Fuploads%2Ffull-ddpg.png)