タグ

距離に関するlabgaのブックマーク (3)

  • Javaで文字列の類似度を測るライブラリの紹介 - Qiita

    概要 文字列同士の距離を求め、類似度を調べるレーベンシュタイン距離の紹介です。 Javaでこの測定手段を用いることができるため、簡単な使い方の実例も記載しています。 レーベンシュタイン距離とは? まずレーベンシュタイン距離とは、文字列の類似度を測る編集距離の一つです。 具体的には、文字列Aを文字列Bに変えるために文字の削除、挿入、置換を繰り返し、手順が最小になる回数を求め、2つの文字列の距離を求めています。 例) kitten→sitting 1.kitten→sitten(kをsに置換) 2.sitten→sittin(eをiに置換) 3.sittin→sitting(gを挿入) ⇒手順の最小回数は三回 このように文字列同士の距離を求めるものがapatch.luceneライブラリの一機能として使えるようになっています。 実際にJavaで使用すると0.0~1.0のfloat値が返ってきます

    Javaで文字列の類似度を測るライブラリの紹介 - Qiita
    labga
    labga 2016/02/18
  • グラフの類似性を評価する - ryamadaの遺伝学・遺伝統計学メモ

    はじめに 参考PDF グラフの同形性評価(graph isomorphism)と類似性評価 Graph isomorphismはグラフ構成要素であるノードの1対1対応とエッジの1対1対応によって定義されている。それに対して、類似性評価は同形性からのはずれの程度の評価であり、その尺度は定義に依存する グラフの類似度評価 評価の指標(グラフ間距離)に求められるもの Metric 同一グラフ間距離は0 グラフAからグラフBへの距離とグラフBからグラフAへの距離は同一(対象性 Symmetry) グラフAからBへの距離とグラフBからCへの距離の和はグラフAからCへの距離を越えない(Triangle inequality) 評価方法 Graph edit distance法 2つのグラフを比較し、グラフに操作(ノードおよびエッジの削除・挿入・置換)を加えることで、両グラフを同一にするときに、その最小

    labga
    labga 2016/02/10
  • 類似度と距離 - CatTail Wiki*

    2つのデータが似ている度合いを,類似度の大きさや距離の近さといった数値にしてあらわすことで,クラスタ分析や,k-近傍法,多次元尺度構成法(MDS)をはじめとするいろいろな分析を行うことが可能となる. ここでは,よく知られている類似度や距離について述べる. 類似度という概念は,2つの集合の要素がまさにどれだけ似ているかを数量化したものであり,距離とは,要素同士の離れ具合,従って非類似度とちかい概念と考えてもよい. 参考までに数学における距離の概念の定義を示すと, 距離空間の定義 Sを1つの空でない集合とし,dをSで定義された2変数の実数値関数 d(SxS) → R が,以下の4条件(距離の公理) D1 : (非負性) 任意のx,y∈Sに対して d(x,y)≧0. D2 : (非退化性) x,y∈Sに対し d(x,y)=0  ⇔ x=y. D3 : (対称性) 任意のx,y∈Sに対して d(x

    類似度と距離 - CatTail Wiki*
  • 1