OpenAIが発表したマインクラフトの操作を学習した「Learning to Play Minecraft with Video PreTraining (VPT)」の論文を読んだ際のメモです。 概要 請負業者(フリーランス)に依頼して作成した7000時間分のキーボード・マウス操作のラベル付き動画からIDM(逆ダイナミクスモデルを学習 IDMモデルを使用してインターネット上にあるラベルなしの動画に疑似ラベルを付与 疑似ラベルを付与した2万時間の動画から行動クローン(BC)モデル(VPTファンデーションモデル)を作成 VPTファンデーションモデルを、強化学習でファインチューニングすることで、ダイアモンドのつるはしを作成できるようになった 問題の難易度 マインクラフトは、報酬が階層的になっており、ダイアモンドのつるはしを作成できるようになるには、木を切って、作業台を作って、石のつるはしを作って