[B! n-gram][コーパス] rin51のブックマーク

rin51 id:rin51

n-gramとコーパスに関するrin51のブックマーク (2)

言語モデル配布ページ
このページでは、ウェブデータ、現代日本語書き言葉コーパスから作成した音声認識用と仮名漢字変換用のN-gramを配布しています。コーパス N-gram 音声認識用N-gram 仮名漢字変換用N-gram ダウンロードコーパスここでは、N-gramを作成するために利用したコーパスについて説明します。ウェブコーパス: ウェブコーパスは京都大学黒橋・河原研究室において、2010年12月～2011年3月にクロールし、文抽出したコーパスの一部です。N-gramの作成には、このうちの2万ページ、20万ページ、200万ページ、3000万ページを用いました。現代日本語書き言葉コーパス: 現代日本語書き言葉コーパス(BCCWJ)は雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスです。コーパスの統計情報各コーパスに関する文数、単語数、文字数について次の
rin51 2012/10/01
N-gram

コーパス

自然言語処理

テキストマイニング

言語モデル
リンク
N-gram コーパス - 日本語ウェブコーパス 2010
概要ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています． N-gram コーパスの構築においては，Google N-gram コーパスと同様の前処理を施しています．句点・感嘆符・疑問符を文の区切りとして利用しているので，「モーニング娘。」や「Yahoo!」などの固有名詞については，不適切な文の区切りがおこなわれています．また，文の区切りは削除するようになっているため，コーパス中に句点・感嘆符・疑問符は出現しません．形態素 N-gram コーパス，文字 N-gram コーパスともに，文境界マーク（<S>，</S>）は採用していますが，未知語トークン（<UNK>）は採用していません．また，文字 N-gram コーパ
rin51 2012/10/01
テキストマイニング

自然言語処理

コーパス

n-gram
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx