[B! 強化学習] heyheyheyのブックマーク

heyheyhey id:heyheyhey

強化学習に関するheyheyheyのブックマーク (5)

誰でもわかる強化学習
本資料は，東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに，講演目的でより初学者向けに内容を調整したものです．特に強化学習で最も基本的かつ最重要手法であるQ学習や，それの深層強化学習版のDQN（Deep Q-Network）を中心に解説しています. 昨今，ChatGPT等の大規模言語モデル（LLM）の開発に強化学習が使用（RLHF等）され，さらに強化学習をLLMに本格的に組み込んだAI（ GoogleのGemini，OpenAIのQ*等）の出現が予想されることから，�強化学習の知識の普及のため公開しました.
heyheyhey 2023/11/26
AI

あとで読む

強化学習
リンク
強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
はじめにベルマン方程式の概要最適制御と評価関数最適制御評価関数価値関数ベルマンの最適性原理ベルマン方程式価値関数の離散化状態の時間発展再訪ベルマン方程式まとめ最後にはじめに強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は意外と多いのではないかと思われます。これを知っていようが知っていまいが、正直世の中の便利なフレームワークを活用すれば強化学習を実行することは可能であるためだと推測されます。しかし、ある種の出発点になっているはずの基礎方程式を無視して、ガチャガチャ色々試してみても、なんだかフワついたままでモヤモヤしてしまうのではないでしょうか。少なくとも自分はそうです。なので今回はベルマン方程式を基本から丁寧に解説していきたいと思います。ベルマン方程式の概要細かい話をする前に、ベルマン方程式がど
heyheyhey 2019/09/23
強化学習

機械学習

あとで読む
リンク
深層学習と並ぶ人工知能の巨塔、強化学習とは一体何か - HELLO CYBERNETICS
学習の種類教師あり学習教師なし学習半教師あり学習強化学習ハッキリとした答えがわからない良さそうか悪そうかの判断方法自体もわからない問題設定は遥かに複雑強化学習を理解する特殊例強化学習の難しさと課題点ｎ本腕バンディット問題問題の状況行動の価値知識利用と探査行動価値関数と行動の決定 Q関数貪欲法による行動の選択ソフトマックス行動選択最後に行動価値関数に関する続編記事強化学習を学ぶための書籍２０１６年NIPSでも強化学習は話題だった学習の種類教師あり学習教師あり学習では、入力データとそれに対する解答をセットでシステムに与えます。システムにデータを入力すると、何らかの出力を行います。もしもその出力が解答と違っていれば、システムの出力の仕方を僅かに変更するという形で学習を進めていきます。システムの出力をデータを解答をシステムの出力と解答との違い
heyheyhey 2017/08/13
強化学習

ディープラーニング
リンク
これさえ読めばすぐに理解できる強化学習の導入と実践
強化学習の位置づけ教師あり学習教師なし学習強化学習強化学習の応用事例 Atariの攻略 Alpha Go ロボットの自動動作獲得ファイナンスへの応用広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる状態行動報酬実装参考文献ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。機械学習の中でも、こ
heyheyhey 2017/08/12
強化学習

あとで読む
リンク
機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS
はじめにここでは、機械学習、ディープラーニング、強化学習、ベイズを無料で学ぶことのできるオンラインリソースを項目ごとにまとめておきます。機械学習 ITについて学べるオンライン講座「Udacity」は、基本的に有料で講座を受けるのですが、中には非常に中身の詰まったコンテンツで、かつ無料の講座も存在します。以下の講座では、機械学習の各技術に関して広くカバーしており、決定木からサポートベクターマシン、ニューラルネットワークやベイズ、強化学習まで学ぶことができます。かなりのボリュームなので興味のあるところを学んでいく感じでも良いと思います。 www.udacity.com s0sem0y.hatena blog.com s0sem0y.hatena blog.com ディープラーニング同じくUdacityからディープラーニングに関する講座です。多層パーセプトロンから畳み込みニューラルネット
heyheyhey 2017/07/22
機械学習

AI

強化学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx