[B! *algorithm][rl][python] sh19910711のブックマーク

sh19910711 id:sh19910711

*algorithmとrlとpythonに関するsh19910711のブックマーク (7)

再帰型強化学習 - Pythonと機械学習
目次目次はじめに再帰型強化学習のアルゴリズム Pythonで実装してみる検証結果シャープレシオの推移過去の期間Tでの学習結果未来の期間Tでの取引シミュレーション結果はじめにこちらのブログで紹介されている、再帰型強化学習を使ってFXトレードをしてみるという記事が面白そうだったので試してみることにしました。再帰型強化学習について知識はゼロですが、取り敢えずやってみるというのが大事じゃないかと思います。強化学習とは機械学習の一種で、エージェントがアクションを起こして、そのアクションによって報酬をもらえるというような仕組みみたいで、各アクションでもらえる報酬を最大化するように学習を実施するという物らしいです。更に再帰型なので、なんかよくわからなくてすごそうです。英語(Recurrent Reinforcement Learning)の頭文字をとってRRLと呼ばれてるみたいで
sh19910711 2024/06/10
"𝐹𝑡は𝑡より前の𝑀個の各時刻の価格変動𝑟𝑡と一つ前の時刻のアクション𝐹𝑡−1に適当な重み𝑤をかけて足し合わせた後ハイパブリックタンジェントの出力 / 𝐹𝑡−1が必要なところが再帰型" 2017

*algorithm

機械学習

rl

python
リンク
ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq
注：今回の記事は完全にプログラマ向けの解説記事ですソースコードの閲覧、ダウンロードは此方からどうぞ GitHub - qhapaq-49/tf_reinforcement: tensorflowを使った簡単(300行弱)なreinforcement learning 【今回作りたいもの】囲碁やポーカーのAIで度々注目されているディープラーニングを使った強化学習。時代の先端を走るゲーム AI開発者的には是非覚えておきたいスキルの一つです。といっても、強化学習の動作原理自体は下記の図のようにシンプルなものです。本稿では下記図の流れを一通り搭載したスタンドアロンで動く強化学習ルーチンを紹介します（上述のgithubのコードを見ながら読まれることをオススメします）。【本稿で扱うゲームのルール】本稿ではニューラルネットで動く競りゲームのAIを作ります。競りゲームとは・初期所持金１０のプレイヤ
sh19910711 2024/04/29
"教師データ: ランダムムーブの対局 + 勝った方の手を良い手としてその手の採択率を上げる / 記事は沢山あるのですが、その多くはgymなどの洗練されすぎたパッケージを使っていて" 2017

*algorithm

機械学習

rl

python
リンク
強化学習 keras-rl2からstable-baselins3への乗り換え - Qiita
はじめに久々にkeras-rl2を使用して強化学習を行ったのですが昔作成したプログラムが動かなくなっていました。tensorflowのバージョンアップが原因のようです。とりあえず動くようには修正したのですが、keras-rl2は2年くらいメンテナンスされておらず、これを機にstable baselinesに移行することにしました。私の環境は下記のとおりです。 macOS: 14.0（23A344） Python: 3.11.5 gym: 0.26.2 tensorflow: 2.14.0 keras: 2.14.0 keras-rl2: 1.0.5 1. 確認のために使用したプログラム下記で使用した拙作のプログラムを使用します。少し変更しているので再掲します。環境 import time import numpy as np import gym class MovingEnv(g
sh19910711 2024/04/21
"keras-rl2: 2年くらいメンテナンスされておらず、これを機にstable baselinesに移行 / 使用しているフレームワークを変更するのは勇気がいる / stable-baselines3: トレーニング時間がkeras-rl2よりだいぶ短い" 2023

*algorithm

機械学習

python

--

rl
リンク
PFRLでスーパーマリオ1-1をクリアするまで - Qiita
以前はStableBaselinesを使っていましたが、ニューラルネットワークの構造をいじりにくいことやアルゴリズムに手を加えにくいと思っていました。ネットワークにAttentionを加えるだけでも一苦労でした。そもそもTensorFlow向けであった点も使いづらかったので、PyTorch向けの深層強化学習ライブラリを探していたところPFRLというライブラリを見つけました。 Hello World代わりにスーパーマリオブラザーズ1-1をクリアしてみようと思います。まずネットワークを定義します。 class Network(nn.Module): def __init__(self, hidden_dim, space_shape, n_actions): super(Network, self).__init__() h, w, c = space_shape self.hidden_
sh19910711 2024/03/05
"StableBaselines: TensorFlow向け + ニューラルネットワークの構造をいじりにくい / PyTorch向けの深層強化学習ライブラリを探していたところPFRLというライブラリを見つけました" 2021

*algorithm

機械学習

rl

*program

python
リンク
RLlib を使ってナップサック問題を強化学習 - なんとなくな Developer のメモ
ナップサック問題へ強化学習を適用すると、どうなるのか気になったので試してみました。強化学習には、Ray に含まれている RLlib を使い、Jupyter Notebook 上で実行します。 Ray 0.8.7 今回のサンプルコードは http://github.com/fits/try_samples/tree/master/blog/20200922/ はじめに以下のようにして Ray と RLlib をインストールしておきます。（TensorFlow も事前にインストールしておく） Ray インストール > pip install ray[rllib] ナップサック問題今回は、以下のような価値と重さを持った品物に対して、重さの合計が 35 以下で価値の合計を最大化する品物の組み合わせを探索する事にします。価値重さ 105 10 74 7 164 15 32 3 235 22
sh19910711 2022/12/01
2020 / "ナップサック問題へ強化学習を適用すると、どうなるのか / 状態: 品物毎の個数 + 行動: 個数を操作 + 報酬: 価値の合計 / gym.Env: step で状態の更新と報酬の算出 / DQN: PPOTrainer の代わりに DQNTrainer を使うだけ"

*algorithm

機械学習

rl

*program

python
リンク
DQNに秘書を面接させたら、美しい結果が得られた話 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? DQNに秘書を面接させたら、美しい結果が得られた話秘書とは「複雑に入り組んだ現代社会に鋭いメスを入れ、様々な謎や疑問を徹底的に究明する探偵！ナイトスクープ。私が局長の西田敏行（上岡龍太郎）でございます。そして」の次に話す人のことです。主に関西地方ではね。本稿は、秘書問題をDQNに解かせてみたら、美しい結果が得られたという話です。 -- 【2018/9/1追記】プログラムで、カウントアップの位置を間違えるという、信じられないミスをやらかしていたので、再度訓練し、原稿を修正しました。幸いなことに、美しい結果が得られることに変わりありま
sh19910711 2022/08/18
"行動: 採用／不採用の2値 / 観測空間: 面接した応募者の相対的順位 + 何人目の面接か + 応募者数 / 報酬: 最善の応募者を採用できた場合は1000点、次善以下の応募者を採用した場合は0点"

*algorithm

機械学習

rl

*program

python
リンク
分散深層強化学習ライブラリHandyRLをコンペで使ってみた。 - のんびりしているエンジニアの日記
皆さんこんにちはお元気ですか。ブログ書きながら、当チームのガチョウを見守っています。最近までHungryGeeseに参加しており、このコンペでHandyRLライブラリには大変お世話になりました。このコンペでHandyRLを改造して使ったので、そのポイントを記録として残しておきます。 HandyRLとは HandyRLの使い方基本編 Tips 自己対戦以外でエージェント作成様々なエージェントで評価自己対戦モデルを一定期間保存する学習済モデルの実行決定的動作で動かす感想 HandyRLとは一言で言えば、PyTorchで利用できる軽量な深層分散強化学習用のフレームワークです。実際に使ってみた感想としても、これまでの強化学習のFWより直感的に理解しやすいものでした。 github.com 分散深層強化学習ではこの2つの処理を同時に行っています。 1. エージェントを自己対戦さ
sh19910711 2021/08/10
"PyTorchで利用できる軽量な深層分散強化学習用のフレームワーク / 今まで強化学習を行うとなれば、複雑なライブラリや実装を読み解く必要があり / これまでの強化学習のFWより直感的に理解しやすい"

*algorithm

contest

機械学習

rl

python
リンク
1