仕事でビッグデータとか機械学習周りの分野に手を出していきたい今日この頃なのですが、練習に業務用データを使うわけにもいきません。幸いWikipediaが全コンテンツを配布してくれているのでこのデータを取り込んでみました。 Wikipedia配布データの取得 Wikipediaのデータ配布については、サイト内の Wikipedia:データベースダウンロード ページに情報があります。 ここから配布先の ページに飛ぶと、各用途に応じてテキストファイル、XML、MySQLのダンプが配布されています。 今回はページ情報とカテゴリ・ページ間のリンク情報、ページ間のリンク情報を取得してみました。 ページ情報 jawiki-latest-page.sql.gz カテゴリ間のリンク情報 jawiki-latest-categorylinks.sql.gz ページ間のリンク情報 jawiki-latest-pa