タグ

ブックマーク / qiita.com/pocokhc (4)

  • 金子勇さんのED法を実装してMNISTを学習させてみた - Qiita

    追記:続きを書きました。 はじめに 先日以下の記事が投稿され、その斬新な考え方に個人的ながら衝撃を受けました。 内容をざっくり言うと、ニューラルネットワークの学習を現在の主流であるBP法(誤差逆伝播法)ではなく、ED法(誤差拡散法)という新しい学習手法を提案しているものです。 もし記事の内容が当ならニューラルネットワークの学習がO(1)でできてしまう事になり、まさしく革命が起きてしまいます。 (結論からいうと速度面はそこまででもなかったです(それでも早くなる可能性あり)) (ただこの新手法のポテンシャルは革命を起こす可能性は秘めているといっても過言ではありません) ED法に関してネットを探すとインターネットアーカイブに情報が少し残っていました。 このページですがED法のサンプルプログラム(C言語)が残っており、このサンプルプログラムをベースにpythonで書き起こしたものが記事となりま

    金子勇さんのED法を実装してMNISTを学習させてみた - Qiita
  • 自作中のシンプルな分散強化学習フレームワークの紹介 - Qiita

    今までいろいろな強化学習アルゴリズムを実装してきましたが、以下の問題を毎回感じていました。 アルゴリズム毎に環境と学習のための実装が必要 (gym等は環境側のインタフェースまでは提供されているが、学習を含めた実装は提供されていない) アルゴリズムの学習フローがそもそも複雑になりやすい(デバッグしづらい) 分散学習まで考えるとなお大変 アルゴリズムと環境が分離しきれず結構依存する Atariの画像の前処理とその入力に依存したニューラルネットワークの設計 アクションが離散値と連続値の場合によるアルゴリズム側の違い よくある数フレーム入力やフレームスキップ、実行できないアクション等を加味した場合の変更 学習フローの差異(AlphaZeroやモデルベース強化学習など) ログや可視化等の作成 既存のフレームワークを試したりしましたが自作アルゴリズムを作ろうとした場合、フレームワークの理解から勉強が必

    自作中のシンプルな分散強化学習フレームワークの紹介 - Qiita
  • @pocokhcのマイページ - Qiita

    posted articles:Python:84%機械学習:66%強化学習:52%Keras:24%最適化:17%

    @pocokhcのマイページ - Qiita
  • 第7回 今更だけど基礎から強化学習を勉強する DDPG/TD3編(連続行動空間) - Qiita

    今回はDDPGを実装してみました。 第6回 PPO編 第8回 SAC編 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ※ライブラリはTensowflow2.0(+Keras)を使っています。 コード全体 記事で作成したコードは以下です。 GoogleColaboratory 追記:自作フレームワークを作成しています。そちらにも実装があります。 DDPG(Deep Deterministic Policy Gradient) DPGは連続行動空間を制御するために考案されたアルゴリズムで、Actor-Criticなモデルを用いて行動価値と方策を学習しますが、方策勾配法を使わずに学習するというちょっと変わった手法になります。 DPGにディープラーニングを適用した手法がDDPGです。 参考 DDPGでPendulum-v0(強化学習, tens

    第7回 今更だけど基礎から強化学習を勉強する DDPG/TD3編(連続行動空間) - Qiita
  • 1