petite_blueのブックマーク - はてなブックマーク

金子勇さんのED法を実装してMNISTを学習させてみた - Qiita
追記：続きを書きました。はじめに先日以下の記事が投稿され、その斬新な考え方に個人的ながら衝撃を受けました。内容をざっくり言うと、ニューラルネットワークの学習を現在の主流であるBP法（誤差逆伝播法）ではなく、ED法（誤差拡散法）という新しい学習手法を提案しているものです。もし記事の内容が本当ならニューラルネットワークの学習がO(1)でできてしまう事になり、まさしく革命が起きてしまいます。（結論からいうと速度面はそこまででもなかったです（それでも早くなる可能性あり））（ただこの新手法のポテンシャルは革命を起こす可能性は秘めているといっても過言ではありません） ED法に関してネットを探すとインターネットアーカイブに情報が少し残っていました。このページですがED法のサンプルプログラム（C言語）が残っており、このサンプルプログラムをベースにpythonで書き起こしたものが本記事となりま
petite_blue 2024/04/24
ai

neural
リンク
自作中のシンプルな分散強化学習フレームワークの紹介 - Qiita
今までいろいろな強化学習アルゴリズムを実装してきましたが、以下の問題を毎回感じていました。アルゴリズム毎に環境と学習のための実装が必要 (gym等は環境側のインタフェースまでは提供されているが、学習を含めた実装は提供されていない) アルゴリズムの学習フローがそもそも複雑になりやすい（デバッグしづらい）分散学習まで考えるとなお大変アルゴリズムと環境が分離しきれず結構依存する Atariの画像の前処理とその入力に依存したニューラルネットワークの設計アクションが離散値と連続値の場合によるアルゴリズム側の違いよくある数フレーム入力やフレームスキップ、実行できないアクション等を加味した場合の変更学習フローの差異（AlphaZeroやモデルベース強化学習など）ログや可視化等の作成既存のフレームワークを試したりしましたが自作アルゴリズムを作ろうとした場合、フレームワークの理解から勉強が必
petite_blue 2023/01/21
強化学習
リンク
@pocokhcのマイページ - Qiita
posted articles:Python:84%機械学習:66%強化学習:52%Keras:24%最適化:17%
petite_blue 2023/01/21
強化学習
リンク
第7回今更だけど基礎から強化学習を勉強する DDPG/TD3編(連続行動空間) - Qiita
今回はDDPGを実装してみました。第6回　PPO編第8回　SAC編 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ※ライブラリはTensowflow2.0(+Keras)を使っています。コード全体本記事で作成したコードは以下です。 Google Colaboratory 追記：自作フレームワークを作成しています。そちらにも実装があります。 DDPG(Deep Deterministic Policy Gradient) DPGは連続行動空間を制御するために考案されたアルゴリズムで、Actor-Criticなモデルを用いて行動価値と方策を学習しますが、方策勾配法を使わずに学習するというちょっと変わった手法になります。 DPGにディープラーニングを適用した手法がDDPGです。参考 DDPGでPendulum-v0（強化学習, tens
petite_blue 2023/01/21
強化学習
リンク
1