Googleが、ウェブから抽出した日本語約200億文(約2,550億語)から作成したNグラムデータ(1〜7グラム)を、NPO法人言語資源協会を通じ、学術目的限定で有償公開しました。 大規模日本語 n-gram データの公開 – Google Japan Blog http://googlejapan.blogspot.com/2007/11/n-gram.html GSK2007-C Web日本語Nグラム第1版 – 言語資源協会 http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果 – IT Pro http://pc.nikkeibp.co.jp/article/NEWS/20071101/286215/
![Google、日本語2,550億語から作成したNグラムデータを公開](https://cdn-ak-scissors.b.st-hatena.com/image/square/7cab7903e416b2fdf7371adec7e411f5c8034d8a/height=288;version=1;width=512/https%3A%2F%2Fcurrent.ndl.go.jp%2Fwp-content%2Fuploads%2F2022%2F09%2FOGP.png)