タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmと*programとrlに関するsh19910711のブックマーク (3)

  • PFRLでスーパーマリオ1-1をクリアするまで - Qiita

    以前はStableBaselinesを使っていましたが、ニューラルネットワークの構造をいじりにくいことやアルゴリズムに手を加えにくいと思っていました。ネットワークにAttentionを加えるだけでも一苦労でした。 そもそもTensorFlow向けであった点も使いづらかったので、PyTorch向けの深層強化学習ライブラリを探していたところPFRLというライブラリを見つけました。 Hello World代わりにスーパーマリオブラザーズ1-1をクリアしてみようと思います。 まずネットワークを定義します。 class Network(nn.Module): def __init__(self, hidden_dim, space_shape, n_actions): super(Network, self).__init__() h, w, c = space_shape self.hidden_

    PFRLでスーパーマリオ1-1をクリアするまで - Qiita
    sh19910711
    sh19910711 2024/03/05
    "StableBaselines: TensorFlow向け + ニューラルネットワークの構造をいじりにくい / PyTorch向けの深層強化学習ライブラリを探していたところPFRLというライブラリを見つけました" 2021
  • RLlib を使ってナップサック問題を強化学習 - なんとなくな Developer のメモ

    ナップサック問題へ強化学習を適用すると、どうなるのか気になったので試してみました。 強化学習には、Ray に含まれている RLlib を使い、Jupyter Notebook 上で実行します。 Ray 0.8.7 今回のサンプルコードは http://github.com/fits/try_samples/tree/master/blog/20200922/ はじめに 以下のようにして Ray と RLlib をインストールしておきます。(TensorFlow も事前にインストールしておく) Ray インストール > pip install ray[rllib] ナップサック問題 今回は、以下のような価値と重さを持った品物に対して、重さの合計が 35 以下で価値の合計を最大化する品物の組み合わせを探索する事にします。 価値 重さ 105 10 74 7 164 15 32 3 235 22

    RLlib を使ってナップサック問題を強化学習 - なんとなくな Developer のメモ
    sh19910711
    sh19910711 2022/12/01
    2020 / "ナップサック問題へ強化学習を適用すると、どうなるのか / 状態: 品物毎の個数 + 行動: 個数を操作 + 報酬: 価値の合計 / gym.Env: step で状態の更新と報酬の算出 / DQN: PPOTrainer の代わりに DQNTrainer を使うだけ"
  • DQNに秘書を面接させたら、美しい結果が得られた話 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? DQNに秘書を面接させたら、美しい結果が得られた話 秘書とは「複雑に入り組んだ現代社会に鋭いメスを入れ、様々な謎や疑問を徹底的に究明する探偵!ナイトスクープ。私が局長の西田敏行(上岡龍太郎)でございます。そして」の次に話す人のことです。主に関西地方ではね。 稿は、秘書問題をDQNに解かせてみたら、美しい結果が得られたという話です。 -- 【2018/9/1追記】 プログラムで、カウントアップの位置を間違えるという、信じられないミスをやらかしていたので、再度訓練し、原稿を修正しました。幸いなことに、美しい結果が得られることに変わりありま

    DQNに秘書を面接させたら、美しい結果が得られた話 - Qiita
    sh19910711
    sh19910711 2022/08/18
    "行動: 採用/不採用の2値 / 観測空間: 面接した応募者の相対的順位 + 何人目の面接か + 応募者数 / 報酬: 最善の応募者を採用できた場合は1000点、次善以下の応募者を採用した場合は0点"
  • 1