ブックマーク / blog.amedama.jp (3)

  • Python: scikit-learn で主成分分析 (PCA) してみる - CUBE SUGAR CONTAINER

    主成分分析 (PCA) は、主にデータ分析や統計の世界で使われる道具の一つ。 データセットに含まれる次元が多いと、データ分析をするにせよ機械学習をするにせよ分かりにくさが増える。 そんなとき、主成分分析を使えば取り扱う必要のある次元を圧縮 (削減) できる。 ただし、ここでいう圧縮というのは非可逆なもので、いくらか失われる情報は出てくる。 今回は、そんな主成分分析を Python の scikit-learn というライブラリを使って試してみることにした。 今回使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.4 BuildVersion: 16E195 $ python --version Python 3.6.1 下準備 あらかじめ、今回使う Python のパッケージを pip でインストールしておく。

    Python: scikit-learn で主成分分析 (PCA) してみる - CUBE SUGAR CONTAINER
    i-hako
    i-hako 2018/09/09
  • Python: 相関行列を計算してヒートマップを描いてみる - CUBE SUGAR CONTAINER

    以前、このブログで相関係数について解説した記事を書いたことがある。 相関係数というのは、データセットのある次元とある次元の関連性を示すものだった。 blog.amedama.jp この相関係数を、データセットの各次元ごとに計算したものを相関行列と呼ぶ。 データ分析の世界では、それぞれの次元の関連性を見るときに、この相関行列を計算することがある。 また、それを見やすくするためにヒートマップというグラフを用いて図示することが多い。 今回は Python を使って相関行列を計算すると共にヒートマップを描いてみることにした。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.4 BuildVersion: 16E195 $ python --version Python 3.5.3 下準備 今回は、相関行列の計算には

    Python: 相関行列を計算してヒートマップを描いてみる - CUBE SUGAR CONTAINER
    i-hako
    i-hako 2018/09/09
  • 統計: 共分散と相関係数でデータセットの相関を調べる - CUBE SUGAR CONTAINER

    まず、二次元の特徴量をもったデータセットがあるときを考えてみよう。 もし、一方の次元の値が高いときに、もう一方も高い傾向があるときは、両者に正の相関があるという。 反対に、一方の次元の値が高いときに、もう一方は低い傾向があるときは、両者に負の相関があるという。 では、それぞれの次元に正または負の相関があるか否かを調べるには、具体的にどうしたら良いのだろうか。 散布図を描いてみる それにはまず、散布図を描いてみるという選択肢がある。 x 軸と y 軸に、それぞれの次元の値をプロットするやり方だ。 このとき、例えば正の相関があるなら、値は次のように左下から右上にかけてプロットされる。 これはつまり x 軸の次元の値が高いときに y 軸の次元の値も高くなることを示す。 反対に、負の相関があるなら、値は次のように左上から右下にかけてプロットされる。 これはつまり x 軸の次元の値が高いときに y

    統計: 共分散と相関係数でデータセットの相関を調べる - CUBE SUGAR CONTAINER
    i-hako
    i-hako 2018/09/09
  • 1