タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

algorithmとdetectionに関するkiyo_hikoのブックマーク (1)

  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

    kiyo_hiko
    kiyo_hiko 2012/05/10
    「100文字程度の二つの文章が人の目にも明らかに似ている場合、この値は 0.4~0.5 を超えます。0.6 を超えると、細部の入れ替え以外はほぼ同一であるという感じがします」なるほど
  • 1