タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

unsupervised-learningとmachine-learningとreinforcement-learningに関するnabinnoのブックマーク (3)

  • ブートストラップ法 - Wikipedia

    モデル式 2.01×がく片長-12.57≧0のときバージニアアヤメと判別 2.01×がく片長-12.57<0のときヘンショクアヤメと判別 (このモデル式では、バージニアアヤメは標50個中37個、ヘンショクアヤメは50個中36個が正しく判別されている。) 最尤推定値は漸近的には正規分布することが知られている。今回の標50個ずつのデータで出した最尤推定値(切片: −12.57、がく片長の係数: 2.01)が、どの程度正規分布に近いか、ブートストラップ法で以下のように調べることができる。 元データから n 個の標を復元抽出する。このとき n は元データの標数である。 最尤法でロジスティック回帰モデルに当てはめる。 このブートストラップ抽出を何度も(B 回)繰り返す。 こうして計算された「推定量の標分布」は、来の標分布の近似になっている。 下図は10000回のブートストラップ抽出によ

    ブートストラップ法 - Wikipedia
  • モンテカルロ法 - Wikipedia

    モンテカルロ法(モンテカルロほう、(英: Monte Carlo method、MC)とはシミュレーションや数値計算を乱数を用いて行う手法の総称。元々は、中性子が物質中を動き回る様子を探るためにスタニスワフ・ウラムが考案しジョン・フォン・ノイマンにより命名された手法。カジノで有名な国家モナコ公国の4つの地区(カルティ)の1つであるモンテカルロから名付けられた。ランダム法とも呼ばれる。 計算理論の分野において、モンテカルロ法とは誤答する確率の上界が与えられる乱択アルゴリズム(ランダム・アルゴリズム)と定義される[1]。一例として素数判定問題におけるミラー-ラビン素数判定法がある。このアルゴリズムは与えられた数値が素数の場合は確実に Yes と答えるが、合成数の場合は非常に少ない確率ではあるが No と答えるべきところを Yes と答える場合がある。一般にモンテカルロ法は独立な乱択を用いて繰り

    モンテカルロ法 - Wikipedia
  • 強化学習 - Wikipedia

    強化学習(きょうかがくしゅう、英: reinforcement learning、RL)は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益(累積報酬)を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習、教師なし学習と並んで、3つの基的な機械学習パラダイムの一つである。 強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる[1]。 この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程(MDP)として定式化される[2]。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの

    強化学習 - Wikipedia
  • 1