タグ

ブックマーク / www.hexacosa.net (1)

  • Pythonで文書の類似度を測る | hexacosa.net

    python ngram crontabで周期起動しながら、JRの遅延情報をメール 送信するツールを作ったのだが、ページが細かい修正を 行いながら頻繁に更新するため、似たような内容の メールを何通も送ってしまう。 そこで今日の情報の中から似ている情報があれば メール送信しないようにしたい。そんな時に使える モジュールがPythonのngramモジュール。要は2つの テキストが似ているか似ていないかを数値で出力してくれる。 インストールは以下。

    silfac
    silfac 2011/08/02
    ぱいそーん
  • 1