グーグルは2007年11月1日、「N-gramデータ」と呼ばれる、語と語のつながりやすさを示すデータを公開した。例えば「グーグルで」という言葉の後には、「検索」という語が使われることが最も多い、といったことが分かるデータだ。インターネットで収集した膨大な日本語データを解析することで作成した。勤務時間の20%を自分の好きなことに使える同社のルール(いわゆる「20%ルール」)によって生まれた成果だという。 N-gram言語モデルとは、N-1個の語のつながりから、N個目に来る語を予測する手法。例えば「グーグル」と「で」という2つの語に続く、3語目の言葉を予想するのは、3-gramに相当する。この手法は、ひらがなから正しい漢字を推定するかな漢字変換や、音声データから文字を推定する音声認識などの処理において、有効に活用されている。今回グーグルは、この手法で使われるデータを作成、公開した。 どの語とど