タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

ngramに関するkitokitokiのブックマーク (2)

  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

    kitokitoki
    kitokitoki 2014/04/10
    トライグラムで類似度を算出
  • 【たのしい自然言語処理シリーズ】サザエさんにじゃんけんで50%勝つ方法 - EchizenBlog-Zwei

    最近サザエさんとキュアピースのじゃんけん対決が話題になっている。 じゃんけんポンで日曜日 またこれに関連して「サザエさん ジャンケン学」というサイトが注目を集めている様子。 サザエさん ジャンケン学 このサイトによるこれまでの予測的中率は44.7%とのこと。 さて自然言語処理という技術の分野ではNgramモデルというものがある。これは簡単に言うと「まことに」という言葉の後には「残念ですが」という言葉がつながりやすいとか、「ちょっと」の後には「いいですか」がつながりやすいというように「どういう言葉の後にどういう言葉がつながるか」ということを表現するモデルのこと。 これをじゃんけんに応用することで「この人はグー、グーときたら次はチョキを出す」というような傾向を予測することができる。 このNgramモデルを使うことでサザエさんに50%くらいの確率で勝てることがわかったので以下にまとめる。 Ngr

    【たのしい自然言語処理シリーズ】サザエさんにじゃんけんで50%勝つ方法 - EchizenBlog-Zwei
  • 1