強化学習でランダムな探索で報酬を得る条件を満たす可能性は低い。SILはある場面における行動価値が、実際に得られた収益より小さい場合のみ、その行動系列を選択するよう学習することで、うまくいった系列を繰り返

elu_18elu_18 のブックマーク 2018/07/10 20:20

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Self-Imitation Learning

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう