■レーベンシュタイン距離とは このコピペチェックツールで利用しているアルゴリズムです。編集距離とも呼ばれています。2つの文字列を何回変更すると同じ文字列になるかを求めるアルゴリズムです。 レーベンシュタイン距離は数値が小さいほど同じような文字列であると判断できます。レーベンシュタイン距離が0のものが全く同じ文字列となります。 このレーベンシュタイン距離ですが、phpではlevenshteinメソッドとして提供されています。 しかし、このlevenshteinメソッドは2バイト文字列である日本語には対応していません。正しいレーベンシュタイン距離が出ません。 今回は、この関数を2バイト文字列に対応させます。 ■2バイト文字に対応させる Qiitaで2バイト対応させるコードが公開されていました。ありがとうございます。この関数を利用することで、日本語でも正確にレーベンシュタイン距離を取得することが