DBMで単語辞書を作る連載の2回目だ。今回作る辞書検索システムの看板機能は、類語検索である。そして、類語を自動的に推定するための一手法として、共起語を使う方法がある。ここでは、Wikipediaをコーパスとして、共起語を抽出する。 解析結果 先に結論から書く。Wikipediaの英語版と日本語版をそれぞれ解析して、各単語について主要共起語のデータベースを作った。その過程及び結果として以下のデータが得られた。 英語の単語の各文における出現確率のTSVファイル 第1列が正規化された単語の文字列で、第2列がその文単位の出現確率。 日本語の単語の各文における出現確率のTSVファイル 第1列が正規化された単語の文字列で、第2列がその文単位の出現確率。 英語の単語の主要な共起語とその共起確率のTSVファイル 第1列が正規化された単語の文字列で、第2列以降が正規化された共起語とその共起確率のペアのリスト