Googleが、ウェブから抽出した日本語約200億文(約2,550億語)から作成したNグラムデータ(1〜7グラム)を、NPO法人言語資源協会を通じ、学術目的限定で有償公開しました。 大規模日本語 n-gram データの公開 – Google Japan Blog http://googlejapan.blogspot.com/2007/11/n-gram.html GSK2007-C Web日本語Nグラム第1版 – 言語資源協会 http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果 – IT Pro http://pc.nikkeibp.co.jp/article/NEWS/20071101/286215/