[B! クラスタリング] simakawaのブックマーク

simakawa id:simakawa

クラスタリングに関するsimakawaのブックマーク (9)

Rによる階層的クラスタリング
階層的クラスタリングによるクラスター分析を行う。以下のように、"HM", "HO", "I", IH, "KK", "MO", "SN", "SO"の8つのサンプルが、"a"から"j"の項目についてそれぞれ値を持っている場合のクラスタリングを行う。まず、以下の選択範囲で示すように表全体をコピーする。次に、Rコンソール上で以下のように打ち込むことでオブジェクト"data"にデータを格納する。
simakawa 2016/10/14
[R}

クラスタリング

クラスター分析
リンク
ランダムフォレスト - 機械学習の「朱鷺の杜Wiki」
ランダムフォレスト (random forest)† ランダムフォレスト (random forest)は多数の決定木を用いたアンサンブル学習．バギングのように，各決定木による多数決で最終的に分類するクラスを決定する．だが，単純なブートストラップサンプリングで分類器を作るのではなく，次の手順で各決定木を学習する．各決定木の学習に用いる訓練事例集合は，バギングと同様に，(復元抽出の)ブートストラップサンプリングによって生成する． $M$ 個の特徴があるとき，そのうち $m$ 個をランダムに選び，その中でCARTのGini係数や，ID3の情報量利得などの規準によって最良の特徴を選ぶ．木の拡張は最後まで，すなわち，各葉ノードに分類される事例のクラスが1種類になるまで行われ，枝狩りも行わない． -- しましま ↑
simakawa 2013/10/08
ランダムフォレスト

クラスタリング
リンク
クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた
集合知プログラミングを読んでいたら、K-means 法（K平均法）の説明が出てきました。 K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると１ステップずつ動かすことができます。クラスタの数や点の数を変更して、Restart を押すと好きなパラメータで試すことができます。こうやって１ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。 (追記) HTML5 版の K-means 法を D3.js でビジュアライズしてみたも作成しました。Flash を表示できない環境ではそちらをご覧ください。 K-means 法とは K平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージに
simakawa 2013/09/02
k-means

クラスタリング

アルゴリズム
リンク
http://nakaikemi.com/clusterexp.htm
階層的クラスター分析（Hiearchical Cluster Analysis) その２　ウォード法とは色々な問題にクラスター分析を用いて解析してみると、比較的安定した解が得られる手法があります。それが、ウォード（Ward)法です。ウォード法は、二つのクラスターを結合する際に、「群内平方和の増加量」が最小になる二つのクラスターを一つにまとめるという手法です。１．ウォード法の定式化これを、まず数式で追いかけてみましょう。いま、　をクラスター{ A } に属する i 番目の対象（クラスター{ A } 内にｎ個ある）の第ｋ変数（全部でｐ個ある）についての値とすればクラスター{ A } 内の平方和は
simakawa 2013/09/02
クラスター分析

クラスタリング

アルゴリズム

データマイニング
リンク
Ｒとクラスター分析(1)
[連載]フリーソフトによるデータ解析・マイニング第28回Ｒとクラスター分析(1) 1．クラスター分析とは我々は、物事を整理整頓する際には、機能、形状などの側面から似ているものを同じのところに集めて、片付ける。これと同じくデータについてもデータ構造の側面から似ている個体を同じのグループに仕分けることが必要である場合がある。データサイエンスにおける分類のための方法は、学習(教師、訓練)データがある分類方法と学習データがない方法に大別される。ここで言う学習データとは、どの個体がどのグループに属するかが既知であるデータである。グループの所属を示すデータは外的基準とも呼ばれている。学習データがある場合の分類方法は、どの個体がどのグループに属するかが既知であるデータから、分類に関するモデルを作成し、そのモデルに基づいて、グループの属性が未知であるデータを最も似ていると判断されるグループに割り当
simakawa 2013/09/02
クラスター分析

クラスタリング

データマイニング
リンク
クラスター分析とは
HOME クラスター分析（クラスター解析）とは、似ているものを集めて分類して、その中から意味のあるものを発見しようというデータマイニングの手法のひとつです。細かい定義などは他に説明されているページがたくさんありますので、省略します。クラスター分析には以下の７つの手法があります。・最短距離法（最近隣法）・最長距離法（最遠隣法）・メディアン法・群平均法・重心法・ウォード法・可変法ここでは非常に基礎的なことですが、クラスター分析についての流れを、図を追って説明していきたいと思います。以下、最短距離法を用いてクラスター分析のアルゴリズムを説明します。また、こちらでプログラムを組むという観点から見た説明もしています。
simakawa 2013/09/02
クラスター分析

データマイニング

clustering

クラスタリング
リンク
クラスター分析
クラスター分析　　　　　Last modified: Aug 28, 2015 似通った個体あるいは変数のグループ化を行うための分析手法である。クラスター分析の結果は，図 1 のようなデンドログラム（樹状図）として表現される。個体が似通っているかどうかの判定基準としてはいくつかあるが，取り扱いが容易なユークリッド距離を用いる。個体のクラスター分析を行う場合には，解析に用いるデータを正規化する場合としない場合では結果がかなり異なることがある。解析に使用する変数が異なった単位で表されているときには，正規化した方がよいかもしれない。しかし，ある変数が決定的な性質を持つ場合には，正規化することは他の変数と同格に取り扱ってしまうことになるので正規化しない方がよいかもしれない。 $n$ 個の個体について，$p$ 個の変数 $X_{i1}, X_{i2}, \dots X_{ip}\ (i =
simakawa 2013/09/02
クラスタリング

クラスター分析

clustering
リンク
sappari wiki - クラスタリング手法
距離が近いものからくっつけていく。または逆に遠いものを別クラスタに分ける。最終的にツリー状のデンドログラムを書ける。様々なクラスター間距離（類似度）の測定方法がある。 NN（Nearest Neighbor）法、最短距離法対象すべたの組み合わせに関して距離を求めて、最も近い距離をクラスタ間の距離とする処理が終わるまで生成されるクラスタの数が不明分類感度は低い連鎖する本によってしきい値があったり無かったり説明が違う気がする。。 K-NN（K Nearest Neighbor）法ある標準パターンからの距離で小さい順にソートし、上からK番目までのクラスタに重複して属させる。他はNN法と同様。 NN法と同様にしきい値に大きな影響を受ける。 Ward法ウォード法 - Wikipedia 階層的クラスタリングの代表的な手法クラスター内の平方和を最小にするように併合する最長距離法
simakawa 2013/09/02
クラスタリング

clustering
リンク
クラスタリング (クラスター分析) - Toshihiro Kamishima
クラスタリング (clustering) とは，分類対象の集合を，内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です．統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ，基本的なデータ解析手法としてデータマイニングでも頻繁に利用されています．分割後の各部分集合はクラスタと呼ばれます．分割の方法にも幾つかの種類があり，全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは，クリスプなクラスタといいます)や，逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト，または，ファジィなクラスタといいます)があります．ここでは前者のハードな場合のクラスタリングについて述べます．
simakawa 2013/06/01
clustering

algorithm

クラスタリング

データマイニング

cluster
リンク
1