ブックマーク / qiita.com/fujine (1)

  • Pythonで文字列の類似度を120倍高速に計算するRapidFuzzを勧めたい - Qiita

    はじめに みずほリサーチ&テクノロジーズ株式会社の@fujineです。 記事では、文字列同士の類似度を計算する「レーベンシュタイン距離」をRapidFuzzで超高速に処理する方法を解説いたします。 この方法で実装すると、1万件の文字列同士の類似度計算において、 一般的なlevenshteinライブラリよりも120倍近く高速に計算することが可能です! (RapidFuzzのGitHubリポジトリより引用) 記事の概要 Pythonで一般的に用いられているlevenshteinライブラリは、比較対象データが多いと処理が長時間化し、実用的ではない RapidFuzzは上記ライブラリよりも約120倍高速であり、エンタープライズ規模のデータにも十分に適用可能 RapidFuzzはレーベンシュタイン距離以外のアルゴリズムや、並列処理、前処理など多様な機能を提供しているため、読者の皆さんには積極的に

    Pythonで文字列の類似度を120倍高速に計算するRapidFuzzを勧めたい - Qiita
    soy-curd
    soy-curd 2024/08/23
  • 1