ほとんどの現実世界のシナリオでは、ある環境で強化学習によってトレーニングされたポリシーを、別の、場合によってはまったく異なる環境に展開する必要があります。ただし、さまざまな環境にまたがる一般化は難しい

arxiv_readerarxiv_reader のブックマーク 2020/12/14 12:05

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

展開中の自己監視ポリシーの適応

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう