エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
自作中のシンプルな分散強化学習フレームワークの紹介 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
自作中のシンプルな分散強化学習フレームワークの紹介 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure y... Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 今までいろいろな強化学習アルゴリズムを実装してきましたが、以下の問題を毎回感じていました。 アルゴリズム毎に環境と学習のための実装が必要 (gym等は環境側のインタフェースまでは提供されているが、学習を含めた実装は提供されていない) アルゴリズムの学習フローがそもそも複雑になりやすい 分散学習まで考えると更に大変 アルゴリズムと環境が分離しきれず結構依存する Atariの画像の前処理とその入力に依存したニューラルネットワークの設計 アクションが離散値と連続値の場合によるアルゴリズム側の違い よくある数フレーム入力やフレームスキップ、実行

