タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

マルチバイト対応に関するtypistaのブックマーク (1)

  • [マルチバイト対応] レーベンシュタイン距離を求める - Qiita

    導入 PHPにはsimilar_textやlevenshteinといった、2つの文字列の類似度を計算するための関数があります。しかしこれらはマルチバイトを考慮しておらず、とりわけUTF-8バイト列に対しては計算精度が悪化するという特徴があります。そこで今回はUTF-8マルチバイト対応版のlevenshtein_utf8という関数を作ってみることにしました。なおsimilar_textの方は計算量が大きすぎてPHPレベルで実装するに堪えないので、今回はパスということで… 既に@suinさんの「mb_levenshtein 二つの文字列のレーベンシュタイン距離を計算する(マルチバイト対応版)」は拝見しましたが、文字種による制約がかかると実用的ではないので、@itcomさんがコメントされているように素直な実装を行いました。といってもほとんどphp-srcからのパクりですが。 距離の正規化に関して

    [マルチバイト対応] レーベンシュタイン距離を求める - Qiita
  • 1