タグ

clusteringに関するp_tanのブックマーク (3)

  • Pythonの機械学習ライブラリtslearnを使った時系列データのクラスタリング

    tslearnとは 時系列分析のための機械学習ツールを提供するPythonパッケージで、scikit-learnをベースとして作られているみたいです。 主な機能として、クラスタリング、教師ありの分類、複数の時系列を重ねた際の重心の計算ができたりします。 今回使用するに至った一番のモチベーションは、波形や振動などの時系列データに対してクラスタリングできるというところです。 tslearnインストール pipコマンドでインストールできます。 Kshapeというクラスタリング手法 今回tslearnで使用するモジュールとして、Kshapeというクラスタリング手法を時系列データに適用していきたいと思います。 Kshapeは2015年に下記の論文で提唱された方法で、以下の流れで実行されるアルゴリズムになります。 相互相関測定に基づいた距離尺度を使う(Shape-based distance: SBD

  • 非負値行列因子分解(NMF)とK-meansが等価である話 - Qiita

    NMF(Non-negative Matrix Factorization)とK-meansが等価であるという話を聞いたので参考論文を基にメモ書き程度に残しておきます。 なお、稿では簡単な対称NMFについてしか記述しないので、それ以上を求める方は参考論文を辿って下さい。 NMF(Non-negative Matrix Factorization) 各成分が非負であるデータ行列$X=[\boldsymbol{x}_1 , ..., \boldsymbol{x}_n] \in \mathbb{R}^{p \times n}$であるとする(画像の各ピクセル値がデータ数分の行列となっている状態)。NMFではSVDやPCA等と異なり、この行列を非負行列で近似する。要するに下のようになる。 $F$ : $[ \boldsymbol{f}_1 , \ldots, \boldsymbol{f}_n] \

    非負値行列因子分解(NMF)とK-meansが等価である話 - Qiita
    p_tan
    p_tan 2017/11/27
    意外な関係
  • R K-means法のクラスタ数を機械的に決定する方法 | トライフィールズ

    K-means法(K平均法)を用いてクラスタリングする場合は、あらかじめクラスタ数を指定しなければならない。 このときのクラスタ数をどのように決めてよいか迷ったことはないだろうか。 ここでは、K-means法のクラスタ数を機械的に決定する方法をお伝えする。 K-means法のクラスタ数を機械的に決定するために用いるのが、Gap統計量である。 Gap統計量を用いたクラスタ数の決定のアイディアを簡単にご紹介すると、クラスタ数1、2、・・・と順に、一様分布から作成されたクラスタ内の距離の平均と元データのクラスタ内の距離の平均とを比べて、より密集しているクラスタ数を採用するという方法である。 詳しくは、Estimating the number of clusters in a data set via the gap statisticを参考にしてほしい。 ここからは、Rを用いて具体的に見ていこ

  • 1