タグ

ブックマーク / blog.cocomoff.info (1)

  • Scikit-learnを使って主成分分析などを中心に遊んだ

    Machine Learning Advent Calendar 2014の企画で書いているブログ記事です.最近私生活で使ってたことや,そのときに躓いたことをまとめました. 主成分分析 名前は聞いたことる方が多いと思いますが,できるだけデータの情報を損失することなく新しい軸を作るための手法です.高次元ベクトルデータなどは現実に可視化することは不可能ですが,2次元や3次元ぐらいまでに落としてあげると可視化することが出来ますし,タスクに依っては低次元部分だけのデータで十分なこともあります. よくある例ではこのような二次元データからこのように第一主成分(青破線)と第二主成分(黒破線)を求めます.そうするとデータ間のユークリッド距離は,青線上で測った場合でも概ね元のデータの特徴を保持している,ということが言えます.PCAはscikit-learnに実装されているものを利用するか,自分で固有値分解を

    Scikit-learnを使って主成分分析などを中心に遊んだ
  • 1