タグ

2017年6月16日のブックマーク (10件)

  • Keras で変分自己符号化器(VAE)を学習したい - クッキーの日記

    以下の記事の続きです。Kerasブログの自己符号化器チュートリアルをやるだけです。 Keras で自己符号化器を学習したい - クッキーの日記 Kerasブログの自己符号化器チュートリアル(Building Autoencoders in Keras)の最後、Variational autoencoder(変分自己符号化器;VAE)をやります。VAE についてのチュートリアル上の説明は簡単なものなので、以下では自分で言葉を補っています。そのため、不正確な記述があるかもしれません。 変分自己符号化器(VAE)って何 実行結果 スクリプト 変分自己符号化器(VAE)って何 そのデータが生成するメカニズムに仮定をおいているとき(そのデータの生成モデルを仮定しているとき)、モデルのパラメータの最適化をするのに VAE を用いることができます。今回は、「それぞれの手書き数字には、その手書き数字に対応

    Keras で変分自己符号化器(VAE)を学習したい - クッキーの日記
  • Keras で自己符号化器を学習したい - クッキーの日記

    Kerasブログの自己符号化器のチュートリアルをやります。 Building Autoencoders in Keras このチュートリアルではMNISTの手書き数字のデータを例に色々な種類の自己符号化器を示しています。スクリプトは全て記事内に示されているので割愛します。上記の記事内でのモデルは Sequential() で生成したインスタンスに層を add していくのではなく、Model (functional API) で組み立てています。 この方法だと自己符号化器(エンコーダ + デコーダ)全体を学習して後からエンコーダ(デコーダ)部分のみ利用するというのが容易にできました。 以下はチュートリアル内で紹介されているモデルの理解のためのお絵描きです(この記事はお絵描きだけです)。 モデル1: 単純な自己符号化器 モデル2: エンコーダがスパースな自己符号化器 モデル3: 多層な自己符号

    Keras で自己符号化器を学習したい - クッキーの日記
  • Building Autoencoders in Keras

    In this tutorial, we will answer some common questions about autoencoders, and we will cover code examples of the following models: a simple autoencoder based on a fully-connected layer a sparse autoencoder a deep fully-connected autoencoder a deep convolutional autoencoder an image denoising model a sequence-to-sequence autoencoder a variational autoencoder Note: all code examples have been updat

  • 強化学習: ノート11 - クッキーの日記

    読んでいる(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : : Amazon.co.jp 前回:ノート10 / 次回: まだ 目次:強化学習 読んだページ: 119~147ページ 以下、自分の理解。 このの2部で紹介される手法の特徴(111~113ページ、142ページ): 方策と価値関数を交互に改善していく考え方は共通だが、以下の点が異なる。 環境のダイナミクス(つまり、次のステップの状態の確率分布と報酬の期待値)が予め必要か。ブートストラップするか(つまり、ある状態の価値の推定に、他の状態の価値の推定値を用いるか)。 動的計画法必要。ブートストラップする。 モンテカルロ法不要。ブートストラップしない。 TD学習不要。ブートストラップする。 ブートストラップ=ひも。スポットレートやディスカウントファクターの

    強化学習: ノート11 - クッキーの日記
  • 強化学習について学んでみた。(その16) - いものやま。

    昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。 今日は、開始点探査の仮定を外す方法について考えていく。 方策オン型手法と方策オフ型手法 まず、開始点探査の仮定を外す方法として、大きく分けて2通りの方法が考えられる。 一つは、方策を決定論的なもの(=各状態で選ばれる行動は常に同じ)からソフトなもの(=各状態で選ばれる行動は確率に従う)へ変更して、任意の状態行動対についてであることを保証する方法。 こうすることで、開始点探査の仮定を入れなくても、任意の状態行動対が観測されるようになる。 もう一つは、評価、改善しようとしている方策とは別の方策を使って状態行動対の列を観測し、その観測結果を使って方策の評価/改善をする方法。 そのようなことが可能であれば、たとえ方策が決定論的なものであったとしても、状態行動対の列を生む方策としてソフトなものを使うことで、開始点探査の仮

    強化学習について学んでみた。(その16) - いものやま。
  • 強化学習について学んでみた。(その14) - いものやま。

    久々に強化学習の話。 前回は、価値反復について説明し、プログラムを書いてみた。 今日からは、そもそも状態遷移のモデルが分からない場合に、どうすればいいのかを考えていく。 おさらい まず、以下の記事で状態遷移のモデルとBellman方程式について説明した。 ここでは3つの課題を挙げているけど、もしモデル(状態遷移の確率、および、報酬の期待値)が分かっているなら、方策反復や価値反復を使って方策を改善していけることが分かった。 しかし、実際にはモデルが分かるということはあまりない。 例えば、将棋である局面から次の局面にどのように遷移するかの確率が分かるかといえば、まず分からない。 なので、最後の課題、そもそも状態遷移のモデルが分からない場合にはどうすればいいのか、を考える必要がある。 基的な考え方 じゃあ、どうすればいいのかというと、基的な考え方は簡単。 実際に何度もやってみればいいじゃん、

    強化学習について学んでみた。(その14) - いものやま。
  • ChristianHerta

  • Deep Reinforcement Learning

  • Deep Reinforcement Learning

    In this tutorial I will discuss how reinforcement learning (RL) can be combined with deep learning (DL). There are several ways to combine DL and RL together, including value-based, policy-based, and Read more

    Deep Reinforcement Learning
  • 活動内容

    RL-Tokyo RL-Tokyoは東京で強化学習を学ぶエンジニア・研究者・学生のコミュニティです 活動内容 火曜勉強会: 隔週火曜に東京駅近郊で勉強会(教科書輪読または論文紹介) アウトプット活動: 勉強会での議論から派生したアウトプット活動(書籍・論文の出版) 1.の火曜勉強会が主な活動内容になります。 アウトプット活動 勉強会での活動・議論から派生してのアウトプットを最終目標としています。これまでに次のようなアウトプット実績があります。 速習 強化学習 ―基礎理論とアルゴリズム― 輪講メンバーによる訳、「速習 強化学習 ―基礎理論とアルゴリズム―」が2017年9月21日に共立出版から刊行されました。 論文 太字が勉強会参加者です。 S. Koyamada, Y. Kikuchi, A. Kanemura, S. Maeda, and S. Ishii: “Neural sequen

    tsu-nera
    tsu-nera 2017/06/16