タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

文字列処理に関するria_ringoのブックマーク (1)

  • 1-byte.jp - PHPでテキストの類似度を求める

    テキストを扱うサービスでは表現の揺れが問題になることが多いですね。 Web上にあるテキストコンテンツは全て人間が入力したものと言っても過言ではありません。 人間が入力する、ということは必ず表現の揺れが発生します。 単純な入力ミスや、複数存在する表現などによるものです。 お知らせメールでもこの例に漏れず、表現の揺れが問題になりました。 ユーザが登録したアーティストや著者に関する情報は、漏れなくユーザに届ける必要があります。 届かなければサイトの信頼に関わりますからね。 内部の処理として文字列の類似度を計算している部分があります。 類似度をプログラムで計算し、登録したアーティストや著者に関連する情報か否か、をフィルタリングしています。 ここで言う文字列の類似度とは、”田中太郎”と”田中次郎”の文字列としての近さを言います。 “田中太郎”と”田中次郎”では”太”と”次”が違うだけなの

  • 1