事前準備 下記ページからjawiki-latest-pages-articles.xml.bz2を取ってくる。 Index of /jawiki/latest/ http://dumps.wikimedia.org/jawiki/latest/ 数GBあるので落とすのにけっこう時間がかかる。落とすファイルがどういうものかに関する説明は下記。 http://www.mwsoft.jp/programming/munou/wikipedia_data_list.html Luceneのインデックスを作成する ダウンロードしたXMLファイルをパースするコードを書いて、Luceneのインデックスを作成する。パーサは100行弱で書けた(Scala。import文、空行除く)。 PageArticleParser.scala タイトルが「Wikipedia:」「Help:」「ファイル:」で始まる文書は