強化学習における学習安定化の工夫を試してみた

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/yner

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

強化学習における学習安定化の工夫を試してみた

機械学習スタートアップシリーズから出ている「Pythonで学ぶ強化学習」という本を読んで強化学習に入門... 機械学習スタートアップシリーズから出ている「Pythonで学ぶ強化学習」という本を読んで強化学習に入門してみました。実際に自分で手を動かして学んだことなどを書いていきたいと思います。実験環境 MacBook Pro (M1 Max) Python 3.11 題材この記事では、OpenAI Gymで提供されている倒立振子問題(CartPole)を題材として実験を行いました。このタスクに対してどのようにAgentを訓練することでより高い報酬、そして学習の安定性を達成できるのかという視点から実験をしてみました。実験準備コードの構成実装の登場人物は以下の3つです。 Agent Environment Trainer これら3つの関係性は下図のようになっていて、Agentが状況をもとにどう動くかを判断し、EnvironmentではAgentが取った行動をもとに次の状態や報酬を返します。そし

ブックマークしたユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx