[B! n-gram] moockmoockのブックマーク

moockmoock id:moockmoock

n-gramに関するmoockmoockのブックマーク (4)

言語モデル配布ページ
このページでは、ウェブデータ、現代日本語書き言葉コーパスから作成した音声認識用と仮名漢字変換用のN-gramを配布しています。コーパス N-gram 音声認識用N-gram 仮名漢字変換用N-gram ダウンロードコーパスここでは、N-gramを作成するために利用したコーパスについて説明します。ウェブコーパス: ウェブコーパスは京都大学黒橋・河原研究室において、2010年12月～2011年3月にクロールし、文抽出したコーパスの一部です。N-gramの作成には、このうちの2万ページ、20万ページ、200万ページ、3000万ページを用いました。現代日本語書き言葉コーパス: 現代日本語書き言葉コーパス(BCCWJ)は雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスです。コーパスの統計情報各コーパスに関する文数、単語数、文字数について次の
moockmoock 2013/12/03
n-gram

nlp

コーパス
リンク
Sign in - Google Accounts
moockmoock 2013/11/14
n-gram

n-gramモデル
リンク
Ngram言語モデルメモ - Negative/Positive Thinking
はじめに現在よく使われていると思われる確率的言語モデルについて簡単に調べてみたのでメモ。 Ngram言語モデルとは例えば、「お酒が飲みたい」と「バリウムが飲みたい」という文章があった時に、前者の方がよく聞く文章で、後者はほとんど聞かない文章上記のような「文章の出やすさ」を数学的モデルで表現したい特に確率を使って表現したい(確率的言語モデル) 単語列が与えられたとき、その単語列の生起確率は例えば「お酒/が/飲みたい」は、P(お酒が飲みたい)=P(お酒)*P(が|お酒)*P(飲みたい|お酒が) しかし、P(単語|ながーい文章)を求めるのは実際には難しい単語の種類がmで単語列の長さがnならば、m^n通りをすべて計算して値を推定しなければならない→無理 Ngram言語モデルは、「各単語の生起確率は、直前の(N-1)単語までのみに依存する」モデル(Markovモデル) 2gram3gra
moockmoock 2013/11/14
n-gram

自然言語処理

n-gramモデル

スムージング

smoothing
リンク
N-gramモデルを利用したテキスト分析　―インデックスページ―
↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ
moockmoock 2013/11/14
n-gram

n-gramモデル

正規表現
リンク
1