タグ

ブックマーク / ensekitt.hatenablog.com (2)

  • 強化学習をする時のベストプラクティスの話 - EnsekiTT Blog

    こんにちは、えんせきです。 金曜日に久々に徹夜でカラオケしてしまいました。若い!ぼくわかい! 金曜日は予定があったので普通に乗り切ったけど、後遺症のせいで土曜日から日曜日にかけて14時間くらい寝ました。スッキリ。 つまりなにしたの? Environment Design Best Practicesを読んだので適用する時に都度英語を読まないで良いように日語メモにした。 読んだやつ github.com 正直、以降の訳文は情報が落ちてるので読めるなら家のほうが良い。 一般的な話 ステップバイステップ 問題を順に難しくしていくと、短時間でより複雑な課題に対して高い報酬を得られるようになる。カリキュラムラーニングというらしい。 できるタスクをやらせる Player Brainでエージェントを制御してタスクを完了できるほうがいいみたい。 報酬の話 強化学習のチューニングで、すごく大切な報酬の話

    強化学習をする時のベストプラクティスの話 - EnsekiTT Blog
  • 【悲報】ゴールに至らず。差動2駆カートを強化学習で走らせた話 - EnsekiTT Blog

    こんにちは、えんせきです。 みなさんミニ四駆は好きですか?むかし、僕は大好きで、改造してはよく一人で遊んでいました。 は?自動で走るんだから一人で遊ぶ遊びだろ?なんか文句あっか?くぁwせdrftgyふじこlp; つまりなにしたの? 先日のカートを差動二輪駆動カートにして一橋を渡りきれるかチャレンジしました。 失敗しました。 先日のカート ensekitt.hatenablog.com 結果 速度が乗ってきたところでスピンしてしまった。 必死に落ちないようにしがみついている感じもして少しポイント高い。 渡りきれず学習は収束してしまった模様。 パラメータたち エージェントに与えた情報 現在位置からゴールの位置までの距離 カートの姿勢角 カートの姿勢角速度 タイヤのローカル角速度 アクション情報 左後輪の目標速度(-3000〜3000) 右後輪の目標速度(-3000〜3000) 報酬 カートと

    【悲報】ゴールに至らず。差動2駆カートを強化学習で走らせた話 - EnsekiTT Blog
  • 1