pixelbeat.jp[B!]新着記事・評価 - はてなブックマーク

『pixelbeat.jp』

[Python]文字列の類似度計算3つの手法を実装・比較 | pixelbeat sandbox
4 users
pixelbeat.jp

はじめに文字列の類似度を定量化する手法を調べたのでPythonでの実装方法と簡単な結果をメモします。 3つのアプローチを紹介します。ゲシュタルトパターンマッチング概要文字列同士の連続する共通部分を抜き出し、抜き出した文字列の前後に対しても同じ処理を繰り返すというアプローチです。 Pythonの標準ライブラリdifflibが採用しています。その考え方は、”junk” 要素を含まない最も長い互いに隣接したマッチ列を探すことです。ここで、 “junk” 要素とは、空行や空白などの、意味を持たない要素のことです。 (junk を処理するのは、Ratcliff と Obershelp のアルゴリズムに追加された拡張です。)この考え方は、マッチ列の左右に隣接するシーケンスの断片に対して再帰的にあてはめられます。この方法では編集を最小にするシーケンスは生まれませんが、人間の目からみて「正しい感
- テクノロジー
- 2020/05/18 01:38

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx