エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Chainerで機械学習と戯れる: 足し算ゲームをChainerを使って強化学習できるか? - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Chainerで機械学習と戯れる: 足し算ゲームをChainerを使って強化学習できるか? - Qiita
はじめに 以前の足し算ゲームを強化学習で学習できるか?では、単純な足し算ゲームの良い行動を Q-Learn... はじめに 以前の足し算ゲームを強化学習で学習できるか?では、単純な足し算ゲームの良い行動を Q-Learningという方法で学習してみました。 今回は同じゲームを Chainerを使って学習させることにします。 ただ、完全に手探りで作ったので、正しくない箇所もまだ残っていそうですが、一応学習できたので投稿しておきます。 お題: 足し算ゲーム by Chainer 前回と同じで、以下のゲームを考えます。 状態S: 0~9 の整数 アクションA: 1~4の整数 次状態S': (S + A) % 10 報酬R: +1: S' == 7 -100: S' in (5, 9) 実験 実験に使ったソースコードはこちらです。 基本的には、前回のQLearningPlayer を NNQLearningPlayer に置き換える形になります。 まだ間違っている箇所もありそうですし、色々わからなかった、ハマ