ChainerでDQN。強化学習を三目並べでいろいろ試してみた。(Deep Q Network、Q-Learning、モンテカルロ)PythonMachineLearningChainerReinforcementLearning 初めてのQiita投稿です。Ridge-iという会社で機械学習を中心としたコンサル~開発をしてます。 強化学習について教える機会が出てきたので、三目並べをベースに モンテカルロ Q-Learning Deep Q Network (いわゆるDQN) についてJupyter(ipython) で実装して教材を作りました。 ちなみに強いプレーヤー同士ならば、ドローだけが繰り返されるはずです。(WarGameの有名なやつですね。) 結論としては モンテカルロ 実装簡単。100回試行位でほぼ負けなし(50回くらいだと時々負ける) Q-Learning 更新式の設計に気
![ChainerでDQN。強化学習を三目並べでいろいろ試してみた。(Deep Q Network、Q-Learning、モンテカルロ) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/54416dd981044149a8a7759553836f5b0fd06d6c/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9Q2hhaW5lciVFMyU4MSVBN0RRTiVFMyU4MCU4MiVFNSVCQyVCNyVFNSU4QyU5NiVFNSVBRCVBNiVFNyVCRiU5MiVFMyU4MiU5MiVFNCVCOCU4OSVFNyU5QiVBRSVFNCVCOCVBNiVFMyU4MSVCOSVFMyU4MSVBNyVFMyU4MSU4NCVFMyU4MiU4RCVFMyU4MSU4NCVFMyU4MiU4RCVFOCVBOSVBNiVFMyU4MSU5NyVFMyU4MSVBNiVFMyU4MSVCRiVFMyU4MSU5RiVFMyU4MCU4MiVFRiVCQyU4OERlZXAlMjBRJTIwTmV0d29yayVFMyU4MCU4MVEtTGVhcm5pbmclRTMlODAlODElRTMlODMlQTIlRTMlODMlQjMlRTMlODMlODYlRTMlODIlQUIlRTMlODMlQUIlRTMlODMlQUQlRUYlQkMlODkmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTJkNDEzMDBmZjQ3MjdhMWVjM2Q5NDQ0OTFmNmIyZDIw%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwbmFyaXNhbjI1JnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0zOTQ1MWY5ZWVkY2YyOTVlYTc0M2EwNDIxMmY4NTE3YQ%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D3a1d3b2563da6e74030b6422f81eb921)