タグ

2013年9月2日のブックマーク (7件)

  • クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた

    集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。 K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。 クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、Restart を押すと好きなパラメータで試すことができます。 こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。 (追記) HTML5 版の K-means 法を D3.js でビジュアライズしてみた も作成しました。Flash を表示できない環境ではそちらをご覧ください。 K-means 法とは K平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージに

    クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた
  • http://nakaikemi.com/clusterexp.htm

    階層的クラスター分析(Hiearchical Cluster Analysis) その2 ウォード法とは 色々な問題にクラスター分析を用いて解析してみると、比較的安定した解が得られる手法があります。それが、ウォード(Ward)法です。ウォード法は、二つのクラスターを結合する際に、「群内平方和の増加量」が最小になる二つのクラスターを一つにまとめるという手法です。 1.ウォード法の定式化 これを、まず数式で追いかけてみましょう。 いま、 をクラスター{ A } に属する i 番目の対象(クラスター{ A } 内に n個ある)の第 k変数(全部でp個ある)についての値とすればクラスター{ A } 内の平方和は

  • Rとクラスター分析(1)

    [連載]フリーソフトによるデータ解析・マイニング第28回 Rとクラスター分析(1) 1.クラスター分析とは 我々は、物事を整理整頓する際には、機能、形状などの側面から似ているものを同じのところに集めて、片付ける。これと同じくデータについてもデータ構造の側面から似ている個体を同じのグループに仕分けることが必要である場合がある。データサイエンスにおける分類のための方法は、学習(教師、訓練)データがある分類方法と学習データがない方法に大別される。 ここで言う学習データとは、どの個体がどのグループに属するかが既知であるデータである。グループの所属を示すデータは外的基準とも呼ばれている。学習データがある場合の分類方法は、どの個体がどのグループに属するかが既知であるデータから、分類に関するモデルを作成し、そのモデルに基づいて、グループの属性が未知であるデータを最も似ていると判断されるグループに割り当

  • クラスター分析とは

    HOME クラスター分析(クラスター解析)とは、似ているものを集めて分類して、その中から意味のあるものを発見しようというデータマイニングの手法のひとつです。 細かい定義などは他に説明されているページがたくさんありますので、省略します。 クラスター分析には以下の7つの手法があります。 ・最短距離法(最近隣法) ・最長距離法(最遠隣法) ・メディアン法 ・群平均法 ・重心法 ・ウォード法 ・可変法 ここでは非常に基礎的なことですが、クラスター分析についての流れを、図を追って説明していきたいと思います。 以下、最短距離法を用いてクラスター分析のアルゴリズムを説明します。 また、こちらでプログラムを組むという観点から見た説明もしています。

  • 分析手法解説

    クラスター(cluster)とは、(ぶどう等の)房、群れ、集団という意味の言葉です。 クラスター分析とは、分析の対象となる個体を、お互いの類似度にしたがって いくつかのグループに分割する手法の総称です。 クラスター分析には多様なアルゴリズムが存在し、データの特性や分析の目的に応じて適切なアルゴリズムを選択する必要があります。実際にクラスター分析を用いるとき、特に問題となるのは主に以下の2点です。 対象間の類似度(距離)の定義 クラスターの結合方法 対象間の類似度としては、ユークリッド距離で定義されることが一般的です。 クラスターの結合方法とは、新しく形成されたクラスター間の距離をどのように定義するかを定めるものです。クラスターの重心から測る「重心法」、最も近い点から測る「最近法」、最も遠い点から測る「最遠法」などがありますが、比較的よく用いられるのは「ウォード法」です。 ウォード法では、ク

  • クラスター分析

    クラスター分析     Last modified: Aug 28, 2015 似通った個体あるいは変数のグループ化を行うための分析手法である。 クラスター分析の結果は,図 1 のようなデンドログラム(樹状図)として表現される。 個体が似通っているかどうかの判定基準としてはいくつかあるが,取り扱いが容易なユークリッド距離を用いる。 個体のクラスター分析を行う場合には,解析に用いるデータを正規化する場合としない場合では結果がかなり異なることがある。 解析に使用する変数が異なった単位で表されているときには,正規化した方がよいかもしれない。しかし,ある変数が決定的な性質を持つ場合には,正規化することは他の変数と同格に取り扱ってしまうことになるので正規化しない方がよいかもしれない。 $n$ 個の個体について,$p$ 個の変数 $X_{i1}, X_{i2}, \dots X_{ip}\ (i =

  • sappari wiki - クラスタリング手法

    距離が近いものからくっつけていく。または逆に遠いものを別クラスタに分ける。 最終的にツリー状のデンドログラムを書ける。 様々なクラスター間距離(類似度)の測定方法がある。 NN(Nearest Neighbor)法、最短距離法 対象すべたの組み合わせに関して距離を求めて、最も近い距離をクラスタ間の距離とする 処理が終わるまで生成されるクラスタの数が不明 分類感度は低い 連鎖する によってしきい値があったり無かったり説明が違う気がする。。 K-NN(K Nearest Neighbor)法 ある標準パターンからの距離で小さい順にソートし、上からK番目までのクラスタに重複して属させる。 他はNN法と同様。 NN法と同様にしきい値に大きな影響を受ける。 Ward法 ウォード法 - Wikipedia 階層的クラスタリングの代表的な手法 クラスター内の平方和を最小にするように併合する 最長距離法