そのうち、ついったーの人工無能を作ろうと思っているので今回はその前段階。 ついったーのログを解析しようとすると、固有表現*1の扱いが結構面倒なことになりそうだなぁと思ったので、その扱いについて少し工夫出来ないか?と考えた。 固有表現抽出に関しては一般的には単語の前後のつながりなどを学習とかして統計的に処理・抽出するのが一般的なのかなぁと思う訳ですが、そもそも適当にbot作りたいだけなのにそんな小難しいことをやりたくない! そこで「Wikipediaの見出し語を辞書として使えば、とりあえず普通の辞書に載ってないような固有名詞が沢山使えるようになるんじゃないの?」と思ってとりあえずやってみた。*2 というのが今回のお話。 Wikipediaのデータの準備 まず下準備としてWikipediaのページ名一覧を取ってくる必要がある訳ですが、これは実はWikipedia側で用意してくれているので大変便