タグ

クラスタリングに関するkyuu3908のブックマーク (3)

  • PythonでWard法によるクラスタリング

    Pythonで、Ward法によるクラスタリング(デンドログラム作成まで)を実装してみた。 参考にしたのは、岡山大学が公開しているこの資料。 (岡山大学の先生ありがとう!) 今回こんな車輪の再発明をしたのは、距離表と呼ばれる行列データを行列のイメージで保存せず、 [(ベクトル1とベクトル2の距離, ベクトル番号1, ベクトル番号2), ...] という形式のリストにして、距離でソートしておき、そのソート結果を維持したままこのリストを分割、更新していくという方針で作ったらどうかと思ったからです。 196個の19次元の非スパースなデータのデンドログラム作成に2.5秒だからなかなかのパフォーマンスではないだろうか。 CもC++もNumpy系の数値計算ライブラリも使わないでこれだから、いいですねえ。 使い方 読み込むデータファイルをタブ区切りで用意する。 1カラム目はデータの識別用ID文字列、2カラ

  • クラスタリング (クラスター分析) - Toshihiro Kamishima

    クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

    クラスタリング (クラスター分析) - Toshihiro Kamishima
  • 文書クラスタリングの基礎

    文書クラスタリングの基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report No. 20070913004 2007年 4月 24日 Abstract 文書クラスタリングでは,文書の定義,クラスタリングに用いる類似度の定義,クラスタリング手法などに特徴的な点がある.そこで報告ではそれらをまとめ,文書クラスタリングに対する理解を深める. 1  はじめに 知的システムデザイン研究室では,ISDLレポートと呼ばれる研究報告を現在までに1300以上Web上に公開している.多くのレポートが存在するが,レポートの分類は行われていないため,クラスタリングにより自動的にレポートのグループ化を行うことを目指している.しかしISDLレポートのような文書に対するクラスタリングではいくつか特徴的な事項があり,それらを考慮する必要がある.そこで報告では文書クラスタリングに関する特徴点をまと

  • 1