[B! *algorithm][*program][rl] sh19910711のブックマーク

sh19910711 id:sh19910711

algorithmとprogramとrlに関するsh19910711のブックマーク (3)

PFRLでスーパーマリオ1-1をクリアするまで - Qiita
以前はStableBaselinesを使っていましたが、ニューラルネットワークの構造をいじりにくいことやアルゴリズムに手を加えにくいと思っていました。ネットワークにAttentionを加えるだけでも一苦労でした。そもそもTensorFlow向けであった点も使いづらかったので、PyTorch向けの深層強化学習ライブラリを探していたところPFRLというライブラリを見つけました。 Hello World代わりにスーパーマリオブラザーズ1-1をクリアしてみようと思います。まずネットワークを定義します。 class Network(nn.Module): def __init__(self, hidden_dim, space_shape, n_actions): super(Network, self).__init__() h, w, c = space_shape self.hidden_
sh19910711 2024/03/05
"StableBaselines: TensorFlow向け + ニューラルネットワークの構造をいじりにくい / PyTorch向けの深層強化学習ライブラリを探していたところPFRLというライブラリを見つけました" 2021

*algorithm

機械学習

rl

*program

python
リンク
RLlib を使ってナップサック問題を強化学習 - なんとなくな Developer のメモ
ナップサック問題へ強化学習を適用すると、どうなるのか気になったので試してみました。強化学習には、Ray に含まれている RLlib を使い、Jupyter Notebook 上で実行します。 Ray 0.8.7 今回のサンプルコードは http://github.com/fits/try_samples/tree/master/blog/20200922/ はじめに以下のようにして Ray と RLlib をインストールしておきます。（TensorFlow も事前にインストールしておく） Ray インストール > pip install ray[rllib] ナップサック問題今回は、以下のような価値と重さを持った品物に対して、重さの合計が 35 以下で価値の合計を最大化する品物の組み合わせを探索する事にします。価値重さ 105 10 74 7 164 15 32 3 235 22
sh19910711 2022/12/01
2020 / "ナップサック問題へ強化学習を適用すると、どうなるのか / 状態: 品物毎の個数 + 行動: 個数を操作 + 報酬: 価値の合計 / gym.Env: step で状態の更新と報酬の算出 / DQN: PPOTrainer の代わりに DQNTrainer を使うだけ"

*algorithm

機械学習

rl

*program

python
リンク
DQNに秘書を面接させたら、美しい結果が得られた話 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? DQNに秘書を面接させたら、美しい結果が得られた話秘書とは「複雑に入り組んだ現代社会に鋭いメスを入れ、様々な謎や疑問を徹底的に究明する探偵！ナイトスクープ。私が局長の西田敏行（上岡龍太郎）でございます。そして」の次に話す人のことです。主に関西地方ではね。本稿は、秘書問題をDQNに解かせてみたら、美しい結果が得られたという話です。 -- 【2018/9/1追記】プログラムで、カウントアップの位置を間違えるという、信じられないミスをやらかしていたので、再度訓練し、原稿を修正しました。幸いなことに、美しい結果が得られることに変わりありま
sh19910711 2022/08/18
"行動: 採用／不採用の2値 / 観測空間: 面接した応募者の相対的順位 + 何人目の面接か + 応募者数 / 報酬: 最善の応募者を採用できた場合は1000点、次善以下の応募者を採用した場合は0点"

*algorithm

機械学習

rl

*program

python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx