タグ

aiとprologに関するsuireNのブックマーク (1)

  • Sarsa(λ) - 人工知能に関する断創録

    強化学習の学習法の1つである Sarsa(λ) アルゴリズムを Introduction to Reinforcement learning(リンク切れ)に載っていたプログラムを参考に実装してみた。手元のにはアルゴリズムが擬似コードで載っているだけなので、細かい実装法で分からないところがあったのだが、これ1つ実装してみただけで見通しがすごくよくなった。強化学習はアルゴリズムがたくさん提案されているが、ほとんど構造は似たようなものなので、これを参考に他のも実装して実験できるようになるだろう。 このプログラムでは迷路の抜け方を学習するんだけど、実際に実行してみて感動した!強化学習は教師なし学習なので迷路の抜け方を具体的に教えない。ただ報酬を定義してやるだけで見事に最適な抜ける方法を導き出した(報酬はエージェントの行動を誘導しているが、具体的な方法を指示しているわけではない)。これって、不可解

    Sarsa(λ) - 人工知能に関する断創録
  • 1