2018年2月7日のブックマーク (1件)

  • 第6回 価値反復法の導入|Tech Book Zone Manatee

    SEやプログラマ、エンジニア、一般の方を対象に、少しずつ実際にプログラムを作りながら、強化学習および深層強化学習について解説していきます。 連載をまとめ、さらに多くの記事を追加した書籍『つくりながら学ぶ!深層強化学習』を2018年7月に発売しました! (上の書籍画像をクリックすると購入サイトに移動できます) はじめに 前回は、強化学習のアルゴリズムの一種である方策勾配法を用いて、迷路内をエージェントが一直線にゴールへ向かうように方策を学習させました。 今回は価値反復法のアルゴリズムを実装するために必要な知識、概念、専門用語を解説します。報酬、行動価値、状態価値、ベルマン方程式、マルコフ決定過程について説明します。 報酬の導入 強化学習のアルゴリズムの1つである価値反復法を実装するために必要な知識を解説します。 アルゴリズムの名前に価値という言葉がつくため、まずはじめに価値を定義する必要が

    第6回 価値反復法の導入|Tech Book Zone Manatee
    aipacommander
    aipacommander 2018/02/07
    わかりやすい