Wikipediaのコンテンツを活用して自前のアプリケーションを書くために、 今回Javaで処理する方法を調べました。 まず下準備として、 以下のWikimediaのダウンロードページからコンテンツを 入手します。 http://download.wikimedia.org/ XML,SQL,StaticHTMLの形式が選択できますが、今回は、XMLデータをダウンロードして それを活用することにします。 StaticHTMLは便利そうですが、データが古いのと、 HTML中にこちらが意図しない情報も含まれていると取り除くのが面倒です。 XMLであれば、直接wiki textで書かれたコンテンツデータを入手できるので、 このwiki textをこちらの都合のよいように変換して使うことができます。 Javaで辞典のタイトルを取り出す XMLデータの準備 Wikimediaのサイトから入手した、