ライントレーサーをDeep Q Learningで教育する - Chainer - Qiitaで取り扱った環境をOpenAI gymライクに扱えるように環境とAIを分離・整備しました。分離したといっても、renderのところを当初wxPythonと描画・ロジック一体で作りこんでしまったので、おかしな状態になっていますが、動くので良しという段階です。 この単眼ライントレーサはPOMDPの例ともいえますが、(最初にコース上に乗せる前提で)ロジックベースで動かしてみている人は少なからずいると思います。 POMDPってなんぞというかたは、@okdshinさんが最近親切な説明を書かれていたので、参考にするといいと思います。 ⇒ 外部メモリ(External Memory)を利用した強化学習 - Qiita 先述の以前のチャレンジでは、過去4ステップ分のステートを状態としてDQNにくれてやっていました
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く