タグ

距離に関するgologo13のブックマーク (4)

  • 統計的テキスト解析(13)~テキストのクラスター分析~

    図書館の図書は何らかの特徴別にグループ分けしており、新聞の紙面は総合、社会、経済、国際、生活、料理、スポーツ、地域などに分けられている。図書は図書館の管理者が、新聞の紙面は編集者たちがグループ分けしている。しかし、インターネット上の大量のテキストを何らかの特徴別にグループ分けする場合、すべての内容を読み、グループ分けすることは現実的ではない。また、人為的にグループ分けすることは読む側の主観の印象や認識などに左右されるため、客観的なグループ分けが求められている。 稿では、テキストがどのグループに属するかに関する情報(外的規準とよぶ)を用いずにグループ分けする方法を説明する。このようなグループ分け方法をクラスター分析と呼ぶ。テキストのクラスター分析は、主に次のようなアプローチ多用されている。 (1)個体の特徴の情報に基づいて、平面や立体空間上で散布図を作成し、分布状況からクラスターの形成状況

  • 類似度と距離 - CatTail Wiki*

    2つのデータが似ている度合いを,類似度の大きさや距離の近さといった数値にしてあらわすことで,クラスタ分析や,k-近傍法,多次元尺度構成法(MDS)をはじめとするいろいろな分析を行うことが可能となる. ここでは,よく知られている類似度や距離について述べる. 類似度という概念は,2つの集合の要素がまさにどれだけ似ているかを数量化したものであり,距離とは,要素同士の離れ具合,従って非類似度とちかい概念と考えてもよい. 参考までに数学における距離の概念の定義を示すと, 距離空間の定義 Sを1つの空でない集合とし,dをSで定義された2変数の実数値関数 d(SxS) → R が,以下の4条件(距離の公理) D1 : (非負性) 任意のx,y∈Sに対して d(x,y)≧0. D2 : (非退化性) x,y∈Sに対し d(x,y)=0  ⇔ x=y. D3 : (対称性) 任意のx,y∈Sに対して d(x

    類似度と距離 - CatTail Wiki*
  • (非)類似度のいくつかの定義

    前節では非類似度(dissimilarity)が得られたものとして,それにもとづいて樹形図を構成していくいろいろな方法について説明した.非類似度は目的に応じて与えればよく,11.6節のプログラムでも任意の非類似度を入力して,分析をおこなうことができる. ここでは個体間の非類似度(距離),変量間の類似度(連関測度)のうち,主なものをあげておこう.このうち,個体間の4種類の非類似度は11.6節のクラスター分析プログラムに組みこまれているので,多変量データを入力して,これらの非類似度にもとづく分析を直ちにおこなうことができる.変量間の類似度の計算は11.7節に示すような別プログラムになっている.したがって,まず11.7節のプログラムにより類似度の計算をおこなった後に,その結果を目的に応じて11.6節のクラスター分析に入力したり,15章の数量化Ⅳ類,16章の主座標分析などに入力すればよい. Sub

  • クラスター分析 非類似度

    クラスター分析のデータの種類が「生データ」の場合、データから対象(ケース)間の非類似度行列(距離行列)を計算して解析する。 ここでは計算する非類似度(距離)の種類を指定する。 ユークリッド距離 通常の距離。データの単位が関係する。 標準化ユークリッド距離 各変数ごとに分散1に標準化した値で計算したユークリッド距離。データの単位に関係しない。 マハラノビス距離 正規分布を仮定する場合に使われるが、変数間の相関も考慮した距離。データの単位が関係する。 ミンコフスキー距離 ユークリッド距離を一般化したもので、パラメータkを指定する。k=2がユークリッド距離に一致する。データの単位が関係する。 マハラノビス距離、ミンコフスキー距離で、データの単位に関係しない標準化したものを使用したい場合には、De for Win でデータを標準化しておく必要がある。 注意 変数がアイテム・カテゴリ型の場合は、各種

  • 1