deejayrokaのブックマーク / 2018年2月28日

OpenAI、失敗を成功に置き換えて学習する強化学習アルゴリズム「HER」発表

OpenAIは、失敗から学ぶ強化学習アルゴリズム「HER（Hindsight Experience Replay）」と、そのアルゴリズムを使用して物理ロボットで動作するモデルを訓練するための8つのシミュレートされたロボット環境を発表しました。訓練するロボット環境には、Fetch researchプラットフォームとShadowHandロボットが含まれます。ロボットアームが物体を操作するいくつかのタスクが用意されており、どれも目標であるゴールが設定されゴールに向かって動作します。例えば、以下の画像は、黒のパックを押すように弾いて赤丸（ゴール）に停止させるというタスクが行われます。 HERの特徴は、仮にゴールと違う場所に黒パックが停止した場合でも、それはそれで成功と置き換えて学習します。違う場所へ黒パックがスライドしたとしても、そこをバーチャルゴールとして再設定することで今後へ生かすと。も

はてなブックマーク

タグ

2018年2月28日のブックマーク (1件)

OpenAI、失敗を成功に置き換えて学習する強化学習アルゴリズム「HER」発表

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス