タグ

Deep learningとDeveloperに関するslay-tのブックマーク (3)

  • 逆強化学習を理解する - Qiita

    逆強化学習 一般的な強化学習では、エージェントが環境からの報酬を得ることで最適な行動を獲得します。しかし現実の問題においては、この報酬を設計することが困難な場合があります。 例えば運転技術を獲得する場合、うまい運転というのはただ目的地に速く着くだけでなく、急発進・急ブレーキしない、混んでなさそうな道を選ぶなど実際の報酬関数として考慮しづらい要素が存在します。 逆強化学習ではエキスパートによる行動から報酬を推定する ことによって、このような表現しにくい報酬を求めることができます。 逆強化学習の手法 この記事では逆強化学習の手法としてよく取り上げられる手法の中で以下の3つについて解説したいと思います。 線形計画法を用いた逆強化学習 Maximum Entropy IRL Maximum Entropy Deep IRL マルコフ決定過程(MDP) 逆強化学習に入る前にまずMDPについて説明しま

    逆強化学習を理解する - Qiita
  • 深層強化学習のサーベイ論文を読む - mabonki0725の日記

    ランニングできず 英語できず 深層強化学習のサーベイ論文を読む 「DeepLearning for Video Game Playing」https://arxiv.org/abs/1708.07902 最近までのPCゲームテレビゲームを深層学習で解くAI技術について網羅的に解説した論文である。従って深層学習を使っても碁や将棋の様なボードゲームは対象外となっている。 下図の様な殆ど全ての深層強化学習を系統別かつ目的別に解説してあり大変な労作である。もし注目するモデルがあれば、この論文で検索すると以下のことが分る様になっている。 ・モデルの概要 ・モデルを発表した論文 ・考案した動機や対象としたゲーム ・モデル開発が可能なプラットホーム ・継承したモデルと発展先のモデル 下図の様に深層学習としては2013年の偉大なDQNから全てが始まっている。しかしこのDQN前にはSuttonのSarsa

    深層強化学習のサーベイ論文を読む - mabonki0725の日記
  • 深層学習 を 用いた 異常値検知 手法まとめ 〜 (Denosing) AutoEncoder, LSTM, TDA(Topological Data Analysis) + CNN - Qiita

    オーソドックス な アプローチ(一般的手法) まず は、以下 が よくまとまっている。 株式会社クロスコンパス・インテリジェンス(2016.10.5)「NVIDIA GPU TECHNOLOGY CONFERENCE JAPAN 2016 Industry Deep Learning」 異常値予測 を 行う アプローチ としては、以下 が 一般的な考え方 の ようだ。 (データ量の多い)正常時のデータ挙動の特徴パターンを学ばせて、 新規データが上記の特徴パターンから乖離している場合を、異常とみなす 上記のアプローチをとる理由 は、「異常発生時のデータ」の取得可能件数 は、「正常時のデータ」 に 比べて、取得できるデータの件数 が 圧倒的に少ない から である。 上記のスライド で 挙げられている AutoEncoderモデル や LSTMモデル を 採用し、 AutoEncoderモデル

    深層学習 を 用いた 異常値検知 手法まとめ 〜 (Denosing) AutoEncoder, LSTM, TDA(Topological Data Analysis) + CNN - Qiita
  • 1