タグ

unsupervied-learningに関するnabinnoのブックマーク (3)

  • Q学習 - Wikipedia

    Q学習(Qがくしゅう、英: Q-learning)は、機械学習分野における強化学習の一種である。 概要[編集] Q学習は強化学習の方策オフ型時間差分法の一つである。概念自体は古くから存在するが、Q学習(Q-learning)という名前で今日の手法がまとめられたのは、1989年のクリストファー・ワトキンズ(Christopher J.C.H. Watkins)の博士論文に端を発する。[1] TD学習は になるように学習させるが、Q学習はこれを に置き換えたものである。状態価値関数 の代わりに、行動価値関数 を使用する。 Q学習は有限マルコフ決定過程において全ての状態が十分にサンプリングできるようなエピソードを無限回試行した場合、最適な評価値に収束することが理論的に証明されている。実際の問題に対してこの条件を満たすことは困難ではあるが、この証明はQ学習の有効性を示す要素の一つとして挙げられる。

    Q学習 - Wikipedia
  • 主成分分析 - Wikipedia

    関連する手法[編集] 主成分分析は因子分析によく似ている。因子分析は、データの背後にある構造に関する分野固有の仮設と、主成分分析の場合とはわずかに異なった行列に対する固有ベクトルを求める手法である、と要約できる。 主成分分析は正準相関分析 (canonical correlation analysis; CCA) とも関わりがある。正準相関分析は二つのデータセット間の相互共分散に基いて座標系を定める手続きだが、主成分分析は単一のデータセットの分散に基いて座標系を選択する手法である[7][8]。 詳細[編集] 数学的には主成分分析はデータの基底に対し直交変換(回転)を行い、新たな座標系を得ることであり[9][要ページ番号]、新しい座標系はその第一成分(第一主成分と呼ばれる)から順に、データの各成分に対する分散が最大になるように選ばれる。 以下では、データ行列 X として、各列の標平均が 0

    主成分分析 - Wikipedia
  • 強化学習 - Wikipedia

    強化学習(きょうかがくしゅう、英: reinforcement learning、RL)は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益(累積報酬)を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習、教師なし学習と並んで、3つの基的な機械学習パラダイムの一つである。 強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる[1]。 この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程(MDP)として定式化される[2]。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの

    強化学習 - Wikipedia
  • 1