![](https://cdn-ak-scissors.b.st-hatena.com/image/square/c39cbdd29f968abed41a03f1a2663abbd5161441/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUUzJTgyJUFBJUUzJTgyJUJCJUUzJTgzJUFEJUUzJTgxJUE3JUU1JUJDJUI3JUU1JThDJTk2JUU1JUFEJUE2JUU3JUJGJTkyJUUzJTgyJTkyJUUzJTgxJTk5JUUzJTgyJThCJUUzJTgwJTkwdnMlMjAlRTMlODMlQTklRTMlODMlQjMlRTMlODMlODAlRTMlODMlQTAlRTUlOTAlOUIlRTMlODAlOTEmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTllYWRkZGYzMTRmODY0NmM5MDkzM2FjNjgxMWQwZTM0%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwbmFuYWtyazk2NSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9YTlkY2M4NDk2Y2RjMTU2YjU0YzM0ODc5MmUwNjcwN2Q%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D682ad8ab51cf2860872e3b23900b2a8c)
エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
オセロで強化学習をする【vs ランダム君】
タイトル通りランダム君を相手に強化学習をしてみました。 networkに与える入力値のサイズは8*8*3 一層... タイトル通りランダム君を相手に強化学習をしてみました。 networkに与える入力値のサイズは8*8*3 一層目には自分の石の情報 二層目には相手の石の情報 三層目には合法手の情報 を0と1のみで表現しています。 network構造は フィルターサイズが108のcnnを12層 ユニットサイズが512の全結合層が5層となっています。 活性化関数はprelu(マイナスの値を自動で学習してくれる関数) 活性化の前にbatch_normalizationを挟んでいます。 出力層は64個のsoftmax関数です。 学習時のドロップアウトはcnnと全結合共に0.5です 学習で使うデータはランダム君との対局データをそのまま使います。 勝った試合はその試合中にとった全ての行動を正解とし、その行動がより出やすくなるように勾配下降します。 負けた試合は反対に、その行動が出にくくなるように勾配下降します。 正解