タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとrlとpythonに関するsh19910711のブックマーク (7)

  • 再帰型強化学習 - Pythonと機械学習

    目次 目次 はじめに 再帰型強化学習のアルゴリズム Pythonで実装してみる 検証結果 シャープレシオの推移 過去の期間Tでの学習結果 未来の期間Tでの取引シミュレーション結果 はじめに こちらのブログで紹介されている、再帰型強化学習を使ってFXトレードをしてみるという記事が面白そうだったので試してみることにしました。 再帰型強化学習について知識はゼロですが、取り敢えずやってみるというのが大事じゃないかと思います。 強化学習とは機械学習の一種で、エージェントがアクションを起こして、そのアクションによって報酬をもらえるというような仕組みみたいで、各アクションでもらえる報酬を最大化するように学習を実施するという物らしいです。 更に再帰型なので、なんかよくわからなくてすごそうです。英語(Recurrent Reinforcement Learning)の頭文字をとってRRLと呼ばれてるみたいで

    sh19910711
    sh19910711 2024/06/10
    "𝐹𝑡は𝑡より前の𝑀個の各時刻の価格変動𝑟𝑡と一つ前の時刻のアクション𝐹𝑡−1に適当な重み𝑤をかけて足し合わせた後ハイパブリックタンジェントの出力 / 𝐹𝑡−1が必要なところが再帰型" 2017
  • ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq

    注:今回の記事は完全にプログラマ向けの解説記事です ソースコードの閲覧、ダウンロードは此方からどうぞ GitHub - qhapaq-49/tf_reinforcement: tensorflowを使った簡単(300行弱)なreinforcement learning 【今回作りたいもの】 囲碁やポーカーのAIで度々注目されているディープラーニングを使った強化学習。時代の先端を走るゲームAI開発者的には是非覚えておきたいスキルの一つです。といっても、強化学習の動作原理自体は下記の図のようにシンプルなものです。稿では下記図の流れを一通り搭載したスタンドアロンで動く強化学習ルーチンを紹介します(上述のgithubのコードを見ながら読まれることをオススメします)。 【稿で扱うゲームのルール】 稿ではニューラルネットで動く競りゲームAIを作ります。競りゲームとは ・初期所持金10のプレイヤ

    ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq
    sh19910711
    sh19910711 2024/04/29
    "教師データ: ランダムムーブの対局 + 勝った方の手を良い手としてその手の採択率を上げる / 記事は沢山あるのですが、その多くはgymなどの洗練されすぎたパッケージを使っていて" 2017
  • 強化学習 keras-rl2からstable-baselins3への乗り換え - Qiita

    はじめに 久々にkeras-rl2を使用して強化学習を行ったのですが昔作成したプログラムが動かなくなっていました。tensorflowのバージョンアップが原因のようです。とりあえず動くようには修正したのですが、keras-rl2は2年くらいメンテナンスされておらず、これを機にstable baselinesに移行することにしました。 私の環境は下記のとおりです。 macOS: 14.0(23A344) Python: 3.11.5 gym: 0.26.2 tensorflow: 2.14.0 keras: 2.14.0 keras-rl2: 1.0.5 1. 確認のために使用したプログラム 下記で使用した拙作のプログラムを使用します。少し変更しているので再掲します。 環境 import time import numpy as np import gym class MovingEnv(g

    強化学習 keras-rl2からstable-baselins3への乗り換え - Qiita
    sh19910711
    sh19910711 2024/04/21
    "keras-rl2: 2年くらいメンテナンスされておらず、これを機にstable baselinesに移行 / 使用しているフレームワークを変更するのは勇気がいる / stable-baselines3: トレーニング時間がkeras-rl2よりだいぶ短い" 2023
  • PFRLでスーパーマリオ1-1をクリアするまで - Qiita

    以前はStableBaselinesを使っていましたが、ニューラルネットワークの構造をいじりにくいことやアルゴリズムに手を加えにくいと思っていました。ネットワークにAttentionを加えるだけでも一苦労でした。 そもそもTensorFlow向けであった点も使いづらかったので、PyTorch向けの深層強化学習ライブラリを探していたところPFRLというライブラリを見つけました。 Hello World代わりにスーパーマリオブラザーズ1-1をクリアしてみようと思います。 まずネットワークを定義します。 class Network(nn.Module): def __init__(self, hidden_dim, space_shape, n_actions): super(Network, self).__init__() h, w, c = space_shape self.hidden_

    PFRLでスーパーマリオ1-1をクリアするまで - Qiita
    sh19910711
    sh19910711 2024/03/05
    "StableBaselines: TensorFlow向け + ニューラルネットワークの構造をいじりにくい / PyTorch向けの深層強化学習ライブラリを探していたところPFRLというライブラリを見つけました" 2021
  • RLlib を使ってナップサック問題を強化学習 - なんとなくな Developer のメモ

    ナップサック問題へ強化学習を適用すると、どうなるのか気になったので試してみました。 強化学習には、Ray に含まれている RLlib を使い、Jupyter Notebook 上で実行します。 Ray 0.8.7 今回のサンプルコードは http://github.com/fits/try_samples/tree/master/blog/20200922/ はじめに 以下のようにして Ray と RLlib をインストールしておきます。(TensorFlow も事前にインストールしておく) Ray インストール > pip install ray[rllib] ナップサック問題 今回は、以下のような価値と重さを持った品物に対して、重さの合計が 35 以下で価値の合計を最大化する品物の組み合わせを探索する事にします。 価値 重さ 105 10 74 7 164 15 32 3 235 22

    RLlib を使ってナップサック問題を強化学習 - なんとなくな Developer のメモ
    sh19910711
    sh19910711 2022/12/01
    2020 / "ナップサック問題へ強化学習を適用すると、どうなるのか / 状態: 品物毎の個数 + 行動: 個数を操作 + 報酬: 価値の合計 / gym.Env: step で状態の更新と報酬の算出 / DQN: PPOTrainer の代わりに DQNTrainer を使うだけ"
  • DQNに秘書を面接させたら、美しい結果が得られた話 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? DQNに秘書を面接させたら、美しい結果が得られた話 秘書とは「複雑に入り組んだ現代社会に鋭いメスを入れ、様々な謎や疑問を徹底的に究明する探偵!ナイトスクープ。私が局長の西田敏行(上岡龍太郎)でございます。そして」の次に話す人のことです。主に関西地方ではね。 稿は、秘書問題をDQNに解かせてみたら、美しい結果が得られたという話です。 -- 【2018/9/1追記】 プログラムで、カウントアップの位置を間違えるという、信じられないミスをやらかしていたので、再度訓練し、原稿を修正しました。幸いなことに、美しい結果が得られることに変わりありま

    DQNに秘書を面接させたら、美しい結果が得られた話 - Qiita
    sh19910711
    sh19910711 2022/08/18
    "行動: 採用/不採用の2値 / 観測空間: 面接した応募者の相対的順位 + 何人目の面接か + 応募者数 / 報酬: 最善の応募者を採用できた場合は1000点、次善以下の応募者を採用した場合は0点"
  • 分散深層強化学習ライブラリHandyRLをコンペで使ってみた。 - のんびりしているエンジニアの日記

    皆さんこんにちは お元気ですか。ブログ書きながら、当チームのガチョウを見守っています。 最近までHungryGeeseに参加しており、このコンペでHandyRLライブラリには大変お世話になりました。 このコンペでHandyRLを改造して使ったので、そのポイントを記録として残しておきます。 HandyRLとは HandyRLの使い方 基編 Tips 自己対戦以外でエージェント作成 様々なエージェントで評価 自己対戦モデルを一定期間保存する 学習済モデルの実行 決定的動作で動かす 感想 HandyRLとは 一言で言えば、PyTorchで利用できる軽量な深層分散強化学習用のフレームワークです。 実際に使ってみた感想としても、これまでの強化学習のFWより直感的に理解しやすいものでした。 github.com 分散深層強化学習ではこの2つの処理を同時に行っています。 1. エージェントを自己対戦さ

    分散深層強化学習ライブラリHandyRLをコンペで使ってみた。 - のんびりしているエンジニアの日記
    sh19910711
    sh19910711 2021/08/10
    "PyTorchで利用できる軽量な深層分散強化学習用のフレームワーク / 今まで強化学習を行うとなれば、複雑なライブラリや実装を読み解く必要があり / これまでの強化学習のFWより直感的に理解しやすい"
  • 1