タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

強化学習に関するkw5のブックマーク (3)

  • 強化学習をする時のベストプラクティスの話 - EnsekiTT Blog

    こんにちは、えんせきです。 金曜日に久々に徹夜でカラオケしてしまいました。若い!ぼくわかい! 金曜日は予定があったので普通に乗り切ったけど、後遺症のせいで土曜日から日曜日にかけて14時間くらい寝ました。スッキリ。 つまりなにしたの? Environment Design Best Practicesを読んだので適用する時に都度英語を読まないで良いように日語メモにした。 読んだやつ github.com 正直、以降の訳文は情報が落ちてるので読めるなら家のほうが良い。 一般的な話 ステップバイステップ 問題を順に難しくしていくと、短時間でより複雑な課題に対して高い報酬を得られるようになる。カリキュラムラーニングというらしい。 できるタスクをやらせる Player Brainでエージェントを制御してタスクを完了できるほうがいいみたい。 報酬の話 強化学習のチューニングで、すごく大切な報酬の話

    強化学習をする時のベストプラクティスの話 - EnsekiTT Blog
  • 【悲報】ゴールに至らず。差動2駆カートを強化学習で走らせた話 - EnsekiTT Blog

    こんにちは、えんせきです。 みなさんミニ四駆は好きですか?むかし、僕は大好きで、改造してはよく一人で遊んでいました。 は?自動で走るんだから一人で遊ぶ遊びだろ?なんか文句あっか?くぁwせdrftgyふじこlp; つまりなにしたの? 先日のカートを差動二輪駆動カートにして一橋を渡りきれるかチャレンジしました。 失敗しました。 先日のカート ensekitt.hatenablog.com 結果 速度が乗ってきたところでスピンしてしまった。 必死に落ちないようにしがみついている感じもして少しポイント高い。 渡りきれず学習は収束してしまった模様。 パラメータたち エージェントに与えた情報 現在位置からゴールの位置までの距離 カートの姿勢角 カートの姿勢角速度 タイヤのローカル角速度 アクション情報 左後輪の目標速度(-3000〜3000) 右後輪の目標速度(-3000〜3000) 報酬 カートと

    【悲報】ゴールに至らず。差動2駆カートを強化学習で走らせた話 - EnsekiTT Blog
  • 強化学習入門 ~これから強化学習を学びたい人のための基礎知識~ - Platinum Data Blog by BrainPad

    こんにちは。アナリティクスサービス部の仲田です。 日は、「強化学習」について、その基礎的なアルゴリズムと、簡単なデモをご紹介します。 強化学習とは機械学習の手法のひとつ (画像はhttps://www.engadget.com/2016/03/12/watch-alphago-vs-lee-sedol-round-3-live-right-now/より) 「強化学習(Reinforcement Learning)」と呼ばれる学問分野をご存知でしょうか。 機械学習にはさまざまな分類方法がありますが、「教師付き学習(Supervised Learning)」「教師なし学習(Unsupervised Learning)」「強化学習」という3種類に分ける考え方があります。 この考え方では、強化学習は機械学習のひとつの大きな分野をなすということになります。 (画像は UCL Course on

    強化学習入門 ~これから強化学習を学びたい人のための基礎知識~ - Platinum Data Blog by BrainPad
  • 1