タグ

2012年12月28日のブックマーク (1件)

  • Mahoutではじめるクラスタリング処理:距離測度の概要 : おのうえのブログ

    その1:クラスタリングの概要 最近は平日、休日ともに飲み会続きで更新さぼってた…(いまも呑んでるけど) Mahoutを使うに当たり、統計学的な知識がゼロだとやっぱりきつい。。 というわけで今回は距離測度について調べてみた クラスタリングの処理(に限らず統計とかは大体そうなのかもしれないけれど)をプログラミングで実行するのには、分析対象のデータをXY平面上の点※の集合として考えるとわかりやすい ※実際に対象のデータを分析するのには、対象の文章データを数値化しないとXY平面上の点として処理できないけれども、それはまた別の機会にします 距離測度の計算は実際にはDistanceMeasureインターフェースを実装したクラスで行う 1、ユークリッド距離 普段生活しているなかで一番よく使う距離の測定方法。つまり、離れた二点があったとして、その距離を定規(メジャーでもなんでもいいけど)を使って測って出し

    Mahoutではじめるクラスタリング処理:距離測度の概要 : おのうえのブログ