こんにちは、えんせきです。 金曜日に久々に徹夜でカラオケしてしまいました。若い!ぼくわかい! 金曜日は予定があったので普通に乗り切ったけど、後遺症のせいで土曜日から日曜日にかけて14時間くらい寝ました。スッキリ。 つまりなにしたの? Environment Design Best Practicesを読んだので適用する時に都度英語を読まないで良いように日本語メモにした。 読んだやつ github.com 正直、以降の訳文は情報が落ちてるので読めるなら本家のほうが良い。 一般的な話 ステップバイステップ 問題を順に難しくしていくと、短時間でより複雑な課題に対して高い報酬を得られるようになる。カリキュラムラーニングというらしい。 できるタスクをやらせる Player Brainでエージェントを制御してタスクを完了できるほうがいいみたい。 報酬の話 強化学習のチューニングで、すごく大切な報酬の話