[B! unsupervised-learning][machine-learning][reinforcement-learning] nabinnoのブックマーク

nabinno id:nabinno

unsupervised-learningとmachine-learningとreinforcement-learningに関するnabinnoのブックマーク (3)

ブートストラップ法 - Wikipedia
モデル式 2.01×がく片長-12.57≧0のときバージニアアヤメと判別 2.01×がく片長-12.57＜0のときヘンショクアヤメと判別（このモデル式では、バージニアアヤメは標本50個中37個、ヘンショクアヤメは50個中36個が正しく判別されている。）最尤推定値は漸近的には正規分布することが知られている。今回の標本50個ずつのデータで出した最尤推定値（切片: −12.57、がく片長の係数: 2.01）が、どの程度正規分布に近いか、ブートストラップ法で以下のように調べることができる。元データから n 個の標本を復元抽出する。このとき n は元データの標本数である。最尤法でロジスティック回帰モデルに当てはめる。このブートストラップ抽出を何度も（B 回）繰り返す。こうして計算された「推定量の標本分布」は、本来の標本分布の近似になっている。下図は10000回のブートストラップ抽出によ
nabinno 2014/08/24
bootstrapping

statistics

monte-carlo-method
リンク
モンテカルロ法 - Wikipedia
モンテカルロ法（モンテカルロほう、（英: Monte Carlo method、MC）とはシミュレーションや数値計算を乱数を用いて行う手法の総称。元々は、中性子が物質中を動き回る様子を探るためにスタニスワフ・ウラムが考案しジョン・フォン・ノイマンにより命名された手法。カジノで有名な国家モナコ公国の4つの地区（カルティ）の1つであるモンテカルロから名付けられた。ランダム法とも呼ばれる。計算理論の分野において、モンテカルロ法とは誤答する確率の上界が与えられる乱択アルゴリズム（ランダム・アルゴリズム）と定義される[1]。一例として素数判定問題におけるミラー-ラビン素数判定法がある。このアルゴリズムは与えられた数値が素数の場合は確実に Yes と答えるが、合成数の場合は非常に少ない確率ではあるが No と答えるべきところを Yes と答える場合がある。一般にモンテカルロ法は独立な乱択を用いて繰り
nabinno 2014/08/24
monte-carlo-method

algorithm
リンク
強化学習 - Wikipedia
強化学習（きょうかがくしゅう、英: reinforcement learning、RL）は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益（累積報酬）を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習、教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。強化学習が教師あり学習と異なる点は、ラベル付きの入力／出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる[1]。この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程（MDP）として定式化される[2]。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの
nabinno 2013/02/01
reinforcement-learning

unsupervied-learning

machine-learning

data-mining

artificial-intelligence
リンク
1