タグ

ブックマーク / frontier45.hatenadiary.org (1)

  • pythonで非階層クラスタリング - frontier45の日記

    scipy.cluster.vqを使ったK-Meansとscikits.learn.gmmを使ったGMM(gaussian mixture model)によるクラスタリングです。GMMの理論についてはこのPDFが詳しいです。(もとは変分ベイズの記事です。) これらのライブラリをそのまま使っても結果はまだソートされていないのでクラスタの番号を要素の多い順にソートし、各クラスタ内のメンバーも中心までの距離や確率で近い順にソートするラッパーを作成しました。 GMMの場合はAICやBICを使ってクラスタの数の評価もできます*1。 こんな感じのサンプルデータを用意しました。作り方はここを参照。 K-Meansだとこんな感じで GMMだとこんなクラスタリングができます。 ちなみに現在公開中のPyNumPDBにもこれが実装されていてMDのトラジェクトリから生成た複数のPDBファイルを読み込んでこんな感じ

    pythonで非階層クラスタリング - frontier45の日記
  • 1