[B! corpus] hogelogのブックマーク

hogelog id:hogelog

corpusに関するhogelogのブックマーク (1)

GSK2007-C Web日本語Nグラム第1版
Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の１〜７グラムを収録している。データの詳細については付属のREADMEも参照のこと。
hogelog 2007/11/03
google

corpus

nlp
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx