[B! Deep learning][Developer] slay-tのブックマーク

slay-t id:slay-t

Deep learningとDeveloperに関するslay-tのブックマーク (3)

逆強化学習を理解する - Qiita
逆強化学習一般的な強化学習では、エージェントが環境からの報酬を得ることで最適な行動を獲得します。しかし現実の問題においては、この報酬を設計することが困難な場合があります。例えば運転技術を獲得する場合、うまい運転というのはただ目的地に速く着くだけでなく、急発進・急ブレーキしない、混んでなさそうな道を選ぶなど実際の報酬関数として考慮しづらい要素が存在します。逆強化学習ではエキスパートによる行動から報酬を推定することによって、このような表現しにくい報酬を求めることができます。逆強化学習の手法この記事では逆強化学習の手法としてよく取り上げられる手法の中で以下の3つについて解説したいと思います。線形計画法を用いた逆強化学習 Maximum Entropy IRL Maximum Entropy Deep IRL マルコフ決定過程(MDP) 逆強化学習に入る前にまずMDPについて説明しま
slay-t 2017/11/07
Developer

deep learning

AR
リンク
深層強化学習のサーベイ論文を読む - mabonki0725の日記
ランニングできず　英語できず深層強化学習のサーベイ論文を読む「DeepLearning for Video Game Playing」https://arxiv.org/abs/1708.07902 最近までのPC ゲームやテレビゲームを深層学習で解くAI 技術について網羅的に解説した論文である。従って深層学習を使っても碁や将棋の様なボードゲームは対象外となっている。下図の様な殆ど全ての深層強化学習を系統別かつ目的別に解説してあり大変な労作である。もし注目するモデルがあれば、この論文で検索すると以下のことが分る様になっている。・モデルの概要・モデルを発表した論文・考案した動機や対象としたゲーム・モデル開発が可能なプラットホーム・継承したモデルと発展先のモデル下図の様に深層学習としては2013年の偉大なDQNから全てが始まっている。しかしこのDQN前にはSuttonのSarsa
slay-t 2017/09/04
AI

deeplearning

Deep Learning

Developer
リンク
深層学習を用いた異常値検知手法まとめ〜 (Denosing) AutoEncoder, LSTM, TDA（Topological Data Analysis) + CNN - Qiita
オーソドックスなアプローチ（一般的手法）まずは、以下がよくまとまっている。株式会社クロスコンパス・インテリジェンス（2016.10.5）「NVIDIA GPU TECHNO LOGY CONFERENCE JAPAN 2016 Industry Deep Learning」異常値予測を行うアプローチとしては、以下が一般的な考え方のようだ。（データ量の多い）正常時のデータ挙動の特徴パターンを学ばせて、新規データが上記の特徴パターンから乖離している場合を、異常とみなす上記のアプローチをとる理由は、「異常発生時のデータ」の取得可能件数は、「正常時のデータ」に比べて、取得できるデータの件数が圧倒的に少ないからである。上記のスライドで挙げられている AutoEncoderモデルや LSTMモデルを採用し、 AutoEncoderモデル
slay-t 2017/08/25
CNN

conference

Deep Learning

Developer

data
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx