最近、Wikipediaのデータを活用したサービスが増えている。 ただし、先日WikipediaのダンプデータをDBに投入する で紹介したように、Wikipediaはサーバから叩けるAPIを提供していない。不定期にダンプデータが提供されているので、それを自分のサーバのデータベースに投入して使うことは可能なのだが、収録されているデータは、Wikiのマークアップがついたままの生テキストなので、使い勝手がよくない。 以前から提供されているSimpleAPI「Wikipedia」は、たぶんこのダンプデータを使って、独自に検索APIを提供しているのだと思うが、 複数の検索結果を一度に返してくる。 簡易な要約文しか提供されない。 という制約があって、Wikipediaに収録されている豊富なデータを活用するには、ちょっと足りない感じがする。 そこで、Wikipediaのマークアップを解釈して、XMLに変