タグ

ブックマーク / freestyle.nvo.jp (1)

  • N-gramで文字列の類似度を測る

    とある2つの文字列がどれぐらい似ているのかを比較するにはどうすればいいのかを調べる必要があったので、ネットで検索してみました。 perlにはString::Trigramというモジュールがあるようです。 String::Trigram でテキストの類似度を測る rubyで同じようなものが見つからなかったので、取り急ぎ作って見ました。 #!/usr/bin/ruby #類似度の比較 class String def ngram(string, part_len = 3) string = string.dup.gsub(/[\s\n ]+/u, "") strlen = string.split(//u).length points = [] source = self.gsub(/[\s\n ]+/u, "") srcarr = source.split(//u) sourcelen =

    N-gramで文字列の類似度を測る
  • 1