エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
最適な行動が見つかる「動的計画法」、段階を踏めば難しくない
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
最適な行動が見つかる「動的計画法」、段階を踏めば難しくない
現在は第3次人工知能(AI)ブームといわれている。このブームの立役者の1つが「強化学習」。本連載は、... 現在は第3次人工知能(AI)ブームといわれている。このブームの立役者の1つが「強化学習」。本連載は、強化学習の基礎から最新の話題まで、分かりやすく解説する。読者の方に技術のエッセンスを直感的に理解してもらい、より専門的な教科書や論文を読みこなせるようになってもらうことが目標である。今回は、前回紹介したQ学習で最適解を導く動的計画法を解説する。 前回は強化学習の代表例としてQ学習を紹介しました。Q学習を使うと、特定の環境に置かれた人工知能(エージェント)は、目的を実現するための適切な行動を効率的に学習できる上、ある数学的な条件の下では最適な行動原理、すなわち将来にわたって獲得し得る報酬の合計(収益)を最大にできる方策(Policy)を導けます。 Q学習によって最適な方策を導くことができるのは、その前身となった「動的計画法(DP:Dynamic Programming)」と呼ばれる手法によると