Web日本語Nグラム第1版 Copyright 2007 Google Inc. All Rights Reserved 1. 概要 「Web日本語Nグラム」は日本語の単語n-gramとその出現頻度をまとめた 大規模言語リソースです。統計翻訳、統計的言語モデル、音声認識等への応用が期待できます。 1.1 対象Webページ n-gramは一般に公開されているWebページでGoogleがクロールしたものから抽出されています。 ただし、閲覧に特別な権限が必要なページや一般に公開されていないページ、 metaタグにnorachive, noindex 等が指定されているページは対象に入っておりません。 原則として日本語のテキストを対象にしていますが、他の言語が混入している場合もあります。 以下、対象Webページ集合を単に「コーパス」と呼ぶ事があります。 1.2 対象We