タグ

N-gramに関するincepのブックマーク (4)

  • http://www.gsk.or.jp/catalog/GSK2007-C/GSK2007C_README.utf8.txt

    Web日語Nグラム第1版 Copyright 2007 Google Inc. All Rights Reserved 1. 概要 「Web日語Nグラム」は日語の単語n-gramとその出現頻度をまとめた 大規模言語リソースです。統計翻訳、統計的言語モデル、音声認識等への応用が期待できます。 1.1 対象Webページ n-gramは一般に公開されているWebページでGoogleがクロールしたものから抽出されています。 ただし、閲覧に特別な権限が必要なページや一般に公開されていないページ、 metaタグにnorachive, noindex 等が指定されているページは対象に入っておりません。 原則として日語のテキストを対象にしていますが、他の言語が混入している場合もあります。 以下、対象Webページ集合を単に「コーパス」と呼ぶ事があります。 1.2 対象We

  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • 開発メモ: WikipediaのN-gram頻度DBを作る

    Wikipedia英語版の文中に出てくる単語の5-gramまでの組み合わせの頻度を数えてみた。全部で10億N-gramくらい処理した。 背景 英和辞書の収録語を選定するにあたり、単語N-gramの出現頻度を知っておくことが重要だ。前回の記事ではCOCA(Corpus of Contemporary American English)のN-gram頻度DBを利用したが、その他の選択肢も検討してみたい。COCAは口語とフィクションと雑誌と新聞と学術論文をバランスよく選定していると主張していて、確かに俺が知っているような英単語・熟語は大抵網羅されている。が、コーパス自体を自分で入手して前処理できると各種のチューニングができて嬉しいこともあるだろう。 で、簡単に手に入る大量のコーパスといえば、Wikipediaの記事である。Wikipediaの方が偏りがひどいという話もあるが、一般人が書く英語

  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • 1