タグ

強化学習に関するphoopeのブックマーク (2)

  • これさえ読めばすぐに理解できる強化学習の導入と実践

    強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。 すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。 一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。 機械学習の中でも、こ

    これさえ読めばすぐに理解できる強化学習の導入と実践
  • 深層学習と並ぶ人工知能の巨塔、強化学習とは一体何か - HELLO CYBERNETICS

    学習の種類 教師あり学習 教師なし学習 半教師あり学習 強化学習 ハッキリとした答えがわからない 良さそうか悪そうかの判断方法自体もわからない 問題設定は遥かに複雑 強化学習を理解する特殊例 強化学習の難しさと課題点 n腕バンディット問題 問題の状況 行動の価値 知識利用と探査 行動価値関数と行動の決定 Q関数 貪欲法による行動の選択 ソフトマックス行動選択 最後に 行動価値関数に関する続編記事 強化学習を学ぶための書籍 2016年NIPSでも強化学習は話題だった 学習の種類 教師あり学習 教師あり学習では、入力データとそれに対する解答をセットでシステムに与えます。 システムにデータを入力すると、何らかの出力を行います。もしもその出力が解答と違っていれば、システムの出力の仕方を僅かに変更するという形で学習を進めていきます。 システムの出力を データを 解答を システムの出力と解答との違い

    深層学習と並ぶ人工知能の巨塔、強化学習とは一体何か - HELLO CYBERNETICS
  • 1