サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
TGS2024
pixelbeat.jp
はじめに 文字列の類似度を定量化する手法を調べたのでPythonでの実装方法と簡単な結果をメモします。 3つのアプローチを紹介します。 ゲシュタルトパターンマッチング 概要 文字列同士の連続する共通部分を抜き出し、抜き出した文字列の前後に対しても同じ処理を繰り返すというアプローチです。 Pythonの標準ライブラリdifflibが採用しています。 その考え方は、”junk” 要素を含まない最も長い互いに隣接したマッチ列を探すことです。ここで、 “junk” 要素とは、空行や空白などの、意味を持たない要素のことです。 (junk を処理するのは、Ratcliff と Obershelp のアルゴリズムに追加された拡張です。)この考え方は、マッチ列の左右に隣接するシーケンスの断片に対して再帰的にあてはめられます。この方法では編集を最小にするシーケンスは生まれませんが、人間の目からみて「正しい感
このページを最初にブックマークしてみませんか?
『pixelbeat.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く