自然言語処理で遊ぶための学習用データとして魅力的なWikipediaのデータですが、ダウンロード可能なDumpデータは3GB程度と容量が大きく、形式はXMLデータだったりと扱うのが大変です。もしDBに格納されていれば条件検索して記事数など確認しながら必要なデータだけ取り出すことができて便利です。今回はファイルとして持ち運びにも便利なSQLiteでWikipediaの記事DBを作成します。 目的 ・Wikipediaの記事データをDB(SQLite)に格納する ・記事名でパターン検索して、タイトルに特定の文字を含む記事データを抽出してみる。 方法(概要) ・Wikipadiaのダンプデータをダウンロードする ・Wikiextractorでテキストを整形しつつjsonデータとして抽出する ・抽出したjsonデータを拙作のPythonスクリプトwikiextractor2sqlite(※)を用い