タグ

強化学習に関するheyheyheyのブックマーク (5)

  • 誰でもわかる強化学習

    資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強化学習が使用(RLHF等)され,さらに強化学習をLLMに格的に組み込んだAIGoogleのGemini,OpenAIのQ*等)の出現が予想されることから,�強化学習の知識の普及のため公開しました.

    誰でもわかる強化学習
  • 強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS

    はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は意外と多いのではないかと思われます。これを知っていようが知っていまいが、正直世の中の便利なフレームワークを活用すれば強化学習を実行することは可能であるためだと推測されます。 しかし、ある種の出発点になっているはずの基礎方程式を無視して、ガチャガチャ色々試してみても、なんだかフワついたままでモヤモヤしてしまうのではないでしょうか。少なくとも自分はそうです。 なので今回はベルマン方程式を基から丁寧に解説していきたいと思います。 ベルマン方程式の概要 細かい話をする前に、ベルマン方程式がど

    強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
  • 深層学習と並ぶ人工知能の巨塔、強化学習とは一体何か - HELLO CYBERNETICS

    学習の種類 教師あり学習 教師なし学習 半教師あり学習 強化学習 ハッキリとした答えがわからない 良さそうか悪そうかの判断方法自体もわからない 問題設定は遥かに複雑 強化学習を理解する特殊例 強化学習の難しさと課題点 n腕バンディット問題 問題の状況 行動の価値 知識利用と探査 行動価値関数と行動の決定 Q関数 貪欲法による行動の選択 ソフトマックス行動選択 最後に 行動価値関数に関する続編記事 強化学習を学ぶための書籍 2016年NIPSでも強化学習は話題だった 学習の種類 教師あり学習 教師あり学習では、入力データとそれに対する解答をセットでシステムに与えます。 システムにデータを入力すると、何らかの出力を行います。もしもその出力が解答と違っていれば、システムの出力の仕方を僅かに変更するという形で学習を進めていきます。 システムの出力を データを 解答を システムの出力と解答との違い

    深層学習と並ぶ人工知能の巨塔、強化学習とは一体何か - HELLO CYBERNETICS
  • これさえ読めばすぐに理解できる強化学習の導入と実践

    強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。 すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。 一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。 機械学習の中でも、こ

    これさえ読めばすぐに理解できる強化学習の導入と実践
  • 機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS

    はじめに ここでは、機械学習、ディープラーニング、強化学習、ベイズを無料で学ぶことのできるオンラインリソースを項目ごとにまとめておきます。 機械学習 ITについて学べるオンライン講座「Udacity」は、基的に有料で講座を受けるのですが、中には非常に中身の詰まったコンテンツで、かつ無料の講座も存在します。 以下の講座では、機械学習の各技術に関して広くカバーしており、決定木からサポートベクターマシン、ニューラルネットワークやベイズ、強化学習まで学ぶことができます。 かなりのボリュームなので興味のあるところを学んでいく感じでも良いと思います。 www.udacity.com s0sem0y.hatenablog.com s0sem0y.hatenablog.com ディープラーニング 同じくUdacityからディープラーニングに関する講座です。 多層パーセプトロンから畳み込みニューラルネット

    機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS
  • 1