[B! N-gram] incepのブックマーク

incep id:incep

N-gramに関するincepのブックマーク (4)

http://www.gsk.or.jp/catalog/GSK2007-C/GSK2007C_README.utf8.txt
Web日本語Nグラム第1版 Copyright 2007 Google Inc. All Rights Reserved 1. 概要「Web日本語Nグラム」は日本語の単語n-gramとその出現頻度をまとめた大規模言語リソースです。統計翻訳、統計的言語モデル、音声認識等への応用が期待できます。 1.1 対象Webページ n-gramは一般に公開されているWebページでGoogleがクロールしたものから抽出されています。ただし、閲覧に特別な権限が必要なページや一般に公開されていないページ、 metaタグにnorachive, noindex 等が指定されているページは対象に入っておりません。原則として日本語のテキストを対象にしていますが、他の言語が混入している場合もあります。以下、対象Webページ集合を単に「コーパス」と呼ぶ事があります。 1.2 対象We
incep 2013/07/22
N-gram

web

nl

corpus
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
incep 2013/04/17
search

N-gram

nlp
リンク
開発メモ: WikipediaのN-gram頻度DBを作る
Wikipedia 英語版の本文中に出てくる単語の5-gramまでの組み合わせの頻度を数えてみた。全部で10億N-gramくらい処理した。背景英和辞書の収録語を選定するにあたり、単語N-gramの出現頻度を知っておくことが重要だ。前回の記事ではCOCA（Corpus of Contemporary American English）のN-gram頻度DBを利用したが、その他の選択肢も検討してみたい。COCAは口語とフィクションと雑誌と新聞と学術論文をバランスよく選定していると主張していて、確かに俺が知っているような英単語・熟語は大抵網羅されている。が、コーパス自体を自分で入手して前処理できると各種のチューニングができて嬉しいこともあるだろう。で、簡単に手に入る大量のコーパスといえば、Wikipediaの記事である。Wikipediaの方が偏りがひどいという話もあるが、一般人が書く英語と
incep 2013/02/01
Wikipedia

N-gram

nlp

corpus
リンク
N-gram コーパス - 日本語ウェブコーパス 2010
概要ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています． N-gram コーパスの構築においては，Google N-gram コーパスと同様の前処理を施しています．句点・感嘆符・疑問符を文の区切りとして利用しているので，「モーニング娘。」や「Yahoo!」などの固有名詞については，不適切な文の区切りがおこなわれています．また，文の区切りは削除するようになっているため，コーパス中に句点・感嘆符・疑問符は出現しません．形態素 N-gram コーパス，文字 N-gram コーパスともに，文境界マーク（<S>，</S>）は採用していますが，未知語トークン（<UNK>）は採用していません．また，文字 N-gram コーパ
incep 2011/07/29
N-gram

google
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx