本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 「強化学習入門」の第2弾。今回は、強化学習の手法の一つ「Policy Gradient」について解説しています。加えて、「Policy Gradient」でTensorflow, Keras, OpenAI Gymを使ったCart Poleの実装内容もご紹介しています! こんにちは、AI開発部の高橋です。今回は強化学習の手法の一つであるPolicy Gradientを説明します。そしてTensorflow, Keras, OpenAI Gymを使ってCartPoleを実装してみます。 目次 目次 1. はじめに 2. 適用例 3. Valued-Basedのおさらい 4. Policy-Based 5. 実装 6. Baseline 7. まとめ 8. 参考文献・コード 1. はじめに 強
![強化学習入門 Part2 - TensorflowとKerasとOpenAI GymでPolicy Gradientを実装してみよう! - Platinum Data Blog by BrainPad](https://cdn-ak-scissors.b.st-hatena.com/image/square/33afe4f8490d1745375a6805e01a88f654af38b3/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fb%2Fbp-writer%2F20170808%2F20170808112943.jpg)