タグ

2018年2月28日のブックマーク (1件)

  • OpenAI、失敗を成功に置き換えて学習する強化学習アルゴリズム「HER」発表

    OpenAIは、失敗から学ぶ強化学習アルゴリズム「HER(Hindsight Experience Replay)」と、そのアルゴリズムを使用して物理ロボットで動作するモデルを訓練するための8つのシミュレートされたロボット環境を発表しました。 訓練するロボット環境には、Fetch researchプラットフォームとShadowHandロボットが含まれます。ロボットアームが物体を操作するいくつかのタスクが用意されており、どれも目標であるゴールが設定されゴールに向かって動作します。 例えば、以下の画像は、黒のパックを押すように弾いて赤丸(ゴール)に停止させるというタスクが行われます。 HERの特徴は、仮にゴールと違う場所に黒パックが停止した場合でも、それはそれで成功と置き換えて学習します。違う場所へ黒パックがスライドしたとしても、そこをバーチャルゴールとして再設定することで今後へ生かすと。 も

    OpenAI、失敗を成功に置き換えて学習する強化学習アルゴリズム「HER」発表