タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

^blogエントリーと54剽窃判定に関するx12のブックマーク (1)

  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

    x12
    x12 2007/10/18
    String::Trigramはちょっと改変がしてあるテキストでも判定可能な類似テキスト判定ライブラリです。文章を3文字ずつ区切って類似度を調べます。剽窃疑惑文章もこれで判定。
  • 1