はじめに 機械学習ライブラリのデファクトスタンダード的存在であるscikit-learnの"教師なし学習"とその定量的評価手法をまとめる。 数学レベルでの理解は途中で挫折したため、まずはライブラリから概要を理解しようと思いまとめました。 教師あり学習編はこちら 前処理編はこちら 教師なし学習とは 教師なし学習とは、入力データのみが与えられ正解ラベルがない状態で学習を行う手法である。 教師なし学習を使う場面は以下。 正解ラベルを用意できないケース 教師あり学習や他の教師なし学習の前処理をするケース データを可視化するケース データをなんとなく理解したいケース 教師なし学習は、次元削減とクラスタリングの2つの大きなタスクに活用される。 次元削減 次元削減とは、データを表現する特徴量の数(次元数)が多すぎる場合に、その特徴量の数を減らすことである。 本記事では、アルゴリズムとして以下をまとめる。