並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 3 件 / 3件

新着順 人気順

逆強化学習の検索結果1 - 3 件 / 3件

  • 「熟練者と同レベルの意思決定ができる」AI、NECが開発 「逆強化学習」で「意図」を学習

    NECは、熟練者の過去の行動履歴データを「逆強化学習」で学習することで、その「意図」を意思決定モデルとして学習し、熟練者と同等の判断を、迅速かつ自律的に導き出せるAI技術を開発したと発表した。同技術を、放送局の広告スケジューリング業務に適用したところ、経験豊富な熟練者と同じレベルの意思決定を、10倍以上のスピードで実現できたという。 NECは7月17日、熟練者の過去の行動履歴データを「逆強化学習」で学習することで、その「意図」を意思決定モデルとして学習し、熟練者と同等の判断を、迅速かつ自律的に導き出せるAI技術を開発したと発表した。同技術を、放送局の広告スケジューリング業務に適用したところ、経験豊富な熟練者と同じレベルの意思決定を、10倍以上のスピードで実現できたという。 逆強化学習とは、報酬を基に最適行動を導き出す強化学習にとは“逆”に、最適行動から報酬を推定する学習。 新技術では、デー

      「熟練者と同レベルの意思決定ができる」AI、NECが開発 「逆強化学習」で「意図」を学習
    • 【GAIL】逆強化学習とGANを組み合わせた模倣学習アルゴリズムを実装してみる【CartPole】 - Morikatron Engineer Blog

      こんにちは、エンジニアの竹内です。 以前の記事でDQNに模倣学習の仕組みを取り入れたDeep Q-Learning from Demonstrationsというアルゴリズムを紹介しましたが、模倣学習には他にもいろいろなアプローチが存在します。 特にエキスパートの行動軌跡から環境の報酬関数を推定する逆強化学習(Inverse Reinforcement Learning)という手法を利用したものは模倣学習アルゴリズムの中でも代表的な手法の1つであり、環境からの報酬が得られない場合でも模倣学習を行う事ができます。 そこで今回は逆強化学習を用いた模倣学習アルゴリズムの中でも特に有用な手法である、敵対的生成ネットワーク(Generative Adversarial Network)を組み合わせたGenerative Adversarial Imitation Learning(GAIL)という手法

        【GAIL】逆強化学習とGANを組み合わせた模倣学習アルゴリズムを実装してみる【CartPole】 - Morikatron Engineer Blog
      • YouTubeで逆強化学習する時代?!ロボットが人間から学ぶために必要なコトとは?

        3つの要点 ✔️ 学習エージェントと教師エージェントのハードウェアが異なる状況下における模倣学習に関する研究 ✔️ 自己教師あり学習を用いて異なる教師エージェントのデモンストレーションを撮影した動画同士の対応関係を捉えることにより、ハードウェアの差異に依存しない概念である「タスクの進捗度合い」に基づく報酬関数を学習する。 ✔️ 人間からロボットへの転移タスクの検証用データセットとしてX-MAJICALを構築し、学習エージェントの装備が未知の場合においても有効な報酬関数を学習できることを示した。 XIRL: Cross-embodiment Inverse Reinforcement Learning written by Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette Bohg, Debidatta Dw

          YouTubeで逆強化学習する時代?!ロボットが人間から学ぶために必要なコトとは?
        1