エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
強化学習および深層強化学習 (G検定)
概要 G検定のシラバスにおける、強化学習および深層強化学習について記載します。 強化学習 方策 (polic... 概要 G検定のシラバスにおける、強化学習および深層強化学習について記載します。 強化学習 方策 (policy) 強化学習で達成したいことは、報酬和を最大にする方策 (policy) $\pi$ を学習することです。 状態 $S$、行動 $A$ を $[0, 1]$ の確率に変換します。 $$\pi: A \times S \rightarrow [0, 1] \\ \pi(a, s) = Pr(a_t = a | s_t = s) $$ 後述の ε-greedy 方策における ε 等、方策はパラメータを持ちます。 バンディットアルゴリズム 強化学習において、方策 (policy) には「活用」と「探索」という概念があります。 活用 (exploitation) 現在知っている情報から、報酬が最大となるような行動を選びます。 探索 (exploration) 現在知っている情報以外の情報を