タグ

2014年11月20日のブックマーク (2件)

  • NAL研卒業研究ノート:: 類似度と距離

    類似度と距離 <n次元ベクトルの距離> ・ユークリッド距離 n次元ユークリッド空間上でのベクトルx,yであらわされる2点の幾何学的な直線距離である ・標準ユークリッド距離 各次元をその次元の取りうる値の標準偏差で割り,値の分散を標準化した上でのユークリッド距離のこと ・マハラノビス距離 相関のある方向に平行な距離を相対的に短く,相関のある方向に垂直な距離を相対的に長くした距離のこと (共分散=0とすれば,標準ユークリッド距離に,さらに,分散=1とすれば,ユークリッド距離に一致) ・マンハッタン距離 2点を直線で結ぶのではなく,各時点では,必ず1つの次元の移動だけを許した移動距離であらわしたものをマンハッタン距離 ・チェビシェフ距離 マス目状の路上において,縦に1ブロック移動するのも,横に1ブロック移動するのも,斜め対角線上に1ブロック移動するのも,いずれも同じ1単位分の移動であると考えた場

  • 二つの文字列の類似度 - ktr_skmtの日記

    雑な備忘録なので、サーベイの前準備程度にお使いください。 二つの文字列の類似度を測る方法についてまとめる。なお、値が高いほど類似度が高いものには青色、値が高いほど類似度が低いものには赤色で色付けた。 なお、意味レベルまで考慮して単文あるいは複文同士の類似性を測る技術を一般関係認識や含意関係認識といいます。そこについては書いていませんが、乾健太郎先生の資料が大変参考になりそうです。大規模言語資源時代の意味談話処理 また、原田実先生が開発された意味解析システムSAGEも日語文の類似性を測る技術です。 文字について、 Shift-JISはダメ文字(2nd octetが5c=backslash)を含んでいるため文字化けの危険がある。 EUC-JPの全角は2 octets文字なので一文字目がAB、二文字目がCDの場合、 正規表現でBCを置換すると文字化けの危険がある。また、マルチバイト文字対応の正

    二つの文字列の類似度 - ktr_skmtの日記