国立国語研究所は2007年5月28日、約1000万語分の日本語の書き言葉データをインターネット上で試験公開したと発表した。各省庁が刊行した白書のデータ(約500万語分)と、ヤフーのQ&A情報サイト「Yahoo!知恵袋」に投稿されたデータ(約500万語分)から成る。こうした大量の言語データは「コーパス」と呼ばれ、言語にまつわる研究開発で活用されている。同研究所は現在、「現代日本語書き言葉均衡コーパス」と呼ぶ大規模コーパスの構築を進めており、今回公開したのはその一部。研究者に限らず誰でも無償で検索、閲覧が可能だ。「“風景”と“光景”など、辞書では違いが分かりにくい言葉でも、大量の用例を見ればすぐ分かる」(研究開発部門の前川喜久雄言語資源グループ長)など、一般の人にとっても、日本語の使われ方を知るうえで便利なデータとなりそうだ。 コーパスは、日本語学や日本語教育はもちろん、自然言語処理のように情
![「風景」と「光景」の違いは? 国立国語研が大量の日本語データ公開](https://cdn-ak-scissors.b.st-hatena.com/image/square/bed39b5962a5d552c95b6d796db8f55e72d32943/height=288;version=1;width=512/https%3A%2F%2Fxtech.nikkei.com%2Fimages%2Fn%2Fxtech%2F2020%2Fogp_nikkeixtech_hexagon.jpg%3F20220512)