2018年9月9日のブックマーク (4件)

  • 【Day-23】機械学習で使う"距離"や"空間"をまとめてみた - プロクラシスト

    データ分析ガチ勉強アドベントカレンダー 23日目。 ここまでデータをどういう風に処理したり、どういうタスクをこなしていくかについて勉強してきたが、 一度基礎的な事項に戻ってみたいと思う。基礎だから簡単というわけではない。基礎だからこそ難しく、また質的な内容。 データ分析で使われている手法などをまとめて集約して、簡単な説明を付け加えていく。 しかし、このあたりの数学*1は苦手なので、なるべく直感的に自分のイメージを書いていく。 われわれが生きている空間や、距離は"正しい"のか ユークリッド空間/ユークリッド距離 点の距離 分布の距離 wasserstein計量 カーネル(再生核ヒルベルト空間) Topological Data Analysis(TDA) 次元削減/Embedding PCA(principal component analysis) t-SNE(t-Distributed

    【Day-23】機械学習で使う"距離"や"空間"をまとめてみた - プロクラシスト
    i-hako
    i-hako 2018/09/09
  • Python: scikit-learn で主成分分析 (PCA) してみる - CUBE SUGAR CONTAINER

    主成分分析 (PCA) は、主にデータ分析や統計の世界で使われる道具の一つ。 データセットに含まれる次元が多いと、データ分析をするにせよ機械学習をするにせよ分かりにくさが増える。 そんなとき、主成分分析を使えば取り扱う必要のある次元を圧縮 (削減) できる。 ただし、ここでいう圧縮というのは非可逆なもので、いくらか失われる情報は出てくる。 今回は、そんな主成分分析を Python の scikit-learn というライブラリを使って試してみることにした。 今回使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.4 BuildVersion: 16E195 $ python --version Python 3.6.1 下準備 あらかじめ、今回使う Python のパッケージを pip でインストールしておく。

    Python: scikit-learn で主成分分析 (PCA) してみる - CUBE SUGAR CONTAINER
    i-hako
    i-hako 2018/09/09
  • Python: 相関行列を計算してヒートマップを描いてみる - CUBE SUGAR CONTAINER

    以前、このブログで相関係数について解説した記事を書いたことがある。 相関係数というのは、データセットのある次元とある次元の関連性を示すものだった。 blog.amedama.jp この相関係数を、データセットの各次元ごとに計算したものを相関行列と呼ぶ。 データ分析の世界では、それぞれの次元の関連性を見るときに、この相関行列を計算することがある。 また、それを見やすくするためにヒートマップというグラフを用いて図示することが多い。 今回は Python を使って相関行列を計算すると共にヒートマップを描いてみることにした。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.4 BuildVersion: 16E195 $ python --version Python 3.5.3 下準備 今回は、相関行列の計算には

    Python: 相関行列を計算してヒートマップを描いてみる - CUBE SUGAR CONTAINER
    i-hako
    i-hako 2018/09/09
  • 統計: 共分散と相関係数でデータセットの相関を調べる - CUBE SUGAR CONTAINER

    まず、二次元の特徴量をもったデータセットがあるときを考えてみよう。 もし、一方の次元の値が高いときに、もう一方も高い傾向があるときは、両者に正の相関があるという。 反対に、一方の次元の値が高いときに、もう一方は低い傾向があるときは、両者に負の相関があるという。 では、それぞれの次元に正または負の相関があるか否かを調べるには、具体的にどうしたら良いのだろうか。 散布図を描いてみる それにはまず、散布図を描いてみるという選択肢がある。 x 軸と y 軸に、それぞれの次元の値をプロットするやり方だ。 このとき、例えば正の相関があるなら、値は次のように左下から右上にかけてプロットされる。 これはつまり x 軸の次元の値が高いときに y 軸の次元の値も高くなることを示す。 反対に、負の相関があるなら、値は次のように左上から右下にかけてプロットされる。 これはつまり x 軸の次元の値が高いときに y

    統計: 共分散と相関係数でデータセットの相関を調べる - CUBE SUGAR CONTAINER
    i-hako
    i-hako 2018/09/09