タグ

n-gramに関するsomemoのブックマーク (5)

  • 【たのしい自然言語処理シリーズ】サザエさんにじゃんけんで50%勝つ方法 - EchizenBlog-Zwei

    最近サザエさんとキュアピースのじゃんけん対決が話題になっている。 じゃんけんポンで日曜日 またこれに関連して「サザエさん ジャンケン学」というサイトが注目を集めている様子。 サザエさん ジャンケン学 このサイトによるこれまでの予測的中率は44.7%とのこと。 さて自然言語処理という技術の分野ではNgramモデルというものがある。これは簡単に言うと「まことに」という言葉の後には「残念ですが」という言葉がつながりやすいとか、「ちょっと」の後には「いいですか」がつながりやすいというように「どういう言葉の後にどういう言葉がつながるか」ということを表現するモデルのこと。 これをじゃんけんに応用することで「この人はグー、グーときたら次はチョキを出す」というような傾向を予測することができる。 このNgramモデルを使うことでサザエさんに50%くらいの確率で勝てることがわかったので以下にまとめる。 Ngr

    【たのしい自然言語処理シリーズ】サザエさんにじゃんけんで50%勝つ方法 - EchizenBlog-Zwei
  • 第5回 N-gramのしくみ | gihyo.jp

    前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し 前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。 一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字:ユニグラム 2文字:バイグラム 3文字:トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS

    第5回 N-gramのしくみ | gihyo.jp
  • http://www.phontron.com/slides/nlp-programming-ja-02-bigramlm.pdf

  • N-gramってなんだ

    ぴいこは研究で、類似度を求める機能をシステムに組み込んでいます。そこで、どうしたら人間の思う「似ている」に機械が近づけるかな?と思って試行錯誤しているのですが、似ているといえばコサイン類似度以外にもN-gram(えぬぐらむ)というやり方があるということにたどり着きました。 今回は、こちらのページを大いに参考にしています!研究のソースでも、ベースにこちらのプログラムを利用させてもらって、カスタマイズして組み込んでいます。やりたいことから技術を得るのにわかりやすいページでした NEO INSPIRATION – Ngramを利用したページ類似度チェッカー+Ngram計算のphpクラス N-gramのNには、1(ユニグラム)とか2(バイグラム)とか3(トリグラム)とか、Nは好きな数字にできますが、一般的には1~3が有効です。私のシステムには2-gramを取り入れています。今回はそのN-gramに

  • N-gramモデルを利用したテキスト分析 ―インデックスページ―

    ↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ

  • 1