タグ

類似度に関するyusukekomoのブックマーク (1)

  • Ngramを利用したページ類似度チェッカー+Ngram計算のphpクラス ← Neo Inspiration

    まあ何がやりたかったって スパムチェック的な類似度チェッカーです。 こんなかんじ。 類似度チェッカー 全く違うURLだと5~10%くらいになって ちょっと関係がある(リンク紹介してたり)すると20%くらいかな 同じブログの違う記事とかだと40%くらいになって 60%超えたらかなり似てるページってかんじのラインです。 例えば wikiの アイスランドのページとアイルランドのページとかでやると 重複度77%とかになります。 Googleは言語にとらわれない解析方法を使っているとのことなので、 高確率で、どっかにNgramは使ってると思うので、 デュプリケイトコンテンツとかの参考に使えるかなーと。 一応ソース公開 たいしたものじゃないんですが、たいしたものじゃないだけに ソースくらい出しとけというお話です。 アルゴリズム的には単純に ・URLからタグを引っぺがす ・出てきたテキストのNgram(

  • 1