aipacommanderのブックマーク / 2018年2月7日

第6回　価値反復法の導入|Tech Book Zone Manatee

SEやプログラマ、エンジニア、一般の方を対象に、少しずつ実際にプログラムを作りながら、強化学習および深層強化学習について解説していきます。本連載をまとめ、さらに多くの記事を追加した書籍『つくりながら学ぶ！深層強化学習』を2018年7月に発売しました！（上の書籍画像をクリックすると購入サイトに移動できます）はじめに前回は、強化学習のアルゴリズムの一種である方策勾配法を用いて、迷路内をエージェントが一直線にゴールへ向かうように方策を学習させました。今回は価値反復法のアルゴリズムを実装するために必要な知識、概念、専門用語を解説します。報酬、行動価値、状態価値、ベルマン方程式、マルコフ決定過程について説明します。報酬の導入強化学習のアルゴリズムの１つである価値反復法を実装するために必要な知識を解説します。アルゴリズムの名前に価値という言葉がつくため、まずはじめに価値を定義する必要が

はてなブックマーク

タグ

2018年2月7日のブックマーク (1件)

第6回　価値反復法の導入|Tech Book Zone Manatee

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2018年2月7日のブックマーク (1件)

第6回 価値反復法の導入|Tech Book Zone Manatee

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

第6回　価値反復法の導入|Tech Book Zone Manatee