今回はwikipediaのデータベースから類義語辞書を作成しよう!です。 思いついたきっかけは「WikipediaからのSolr用類義語辞書の自動生成」 http://www.slideshare.net/KojiSekiguchi/wikipediasolr?from=new_upload_email というスライドを見て、 ひょっとしたらwikipediaのデータベースにある「#redirect(・・から転送)」の関係は類義語と言えるので、このデータを利用すれば簡単に類義語の辞書が出来るかもしれない。 とふと思いついたのが始まりです。 で、実際にwikipediaのデータをmysqlでデータベース化したものから#redirectの関係で類義語辞書をつくってみたのがこちらのファイル http://wordword.antlabo.jp/data/dougogolist.csv.gz (w