[B! n-gram] sh4869のブックマーク

sh4869 id:sh4869

n-gramに関するsh4869のブックマーク (2)

N-gramモデルを利用したテキスト分析　―インデックスページ―
↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ
sh4869 2014/12/18
自然言語処理

n-gram
リンク
N-gram - Negative/Positive Thinking
はじめに文書の数学的表現をするためによく用いられるものに「N-gram」というものがある。最近ちょっと混乱ので、ちゃんとまとめてみる。 N-gramとは？「文章などで隣り合うn個のこと」文書を数学的に扱うために、普通に考え付くのが「その単語がでたかどうか」や「単語とその頻度」などだけど、それだけじゃないのがn-gram。 n-gramを要素として考えることで、さまざまな文書のベクトル表現ができる(二値ベクトル、頻度ベクトルなど)。単語n-gram 「this is a pen」という文書が与えられたとき、この文書を分解したい。以下のように、隣り合うn個の単語を一塊として考えるのがn-gram。 1-gram(unigram) {this, is, a, pen} 2-gram(bigram) {this-is, is-a, a-pen} 3-gram(trigram) {th
sh4869 2014/12/18
n-gram
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx