近年、コーパスを用いた言語研究の手法に多くの注目が集まっている。英語に関しては以前から、British National Corpusをはじめ、大規模なコーパスが複数存在している。また日本語を含む他のいくつかの言語に関しても、これらに匹敵する規模のコーパスの構築が進められている。しかし現時点で、研究者が自由に利用できる日本語コーパスの選択の幅は非常に限られている。要因としては、テキストデータの著作権に関する問題と、それに付随する様々な制約といったものが挙げられる。 このような状況を鑑み、本稿ではオープンソース―すなわち著作権フリーで再配布・改良自由の形式―で提供されるインターネット百科事典サイトWikipedia日本語版のデータをコーパスとして用いることを提案する。また、Wikipediaのアーカイブファイルから言語学的に有用なデータを抽出するために筆者が開発したツールキットを紹介し、解説