タグ

ブックマーク / www.gsk.or.jp (1)

  • GSK2007-C Web日本語Nグラム第1版

    Nグラムは一般に公開されている日語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。 データの詳細については付属のREADMEも参照のこと。

  • 1