WikipediaのdumpからMeCabのユーザー辞書を作成します. ここで利用されるアーキテクチャは python MySQL sqlite3 mecab です. Wikipediaのdumpデータは 「Wikipedia:データベースダウンロード」 から各種データをダウンロードできます. 例えば2017年4月1日分であれば https://dumps.wikimedia.org/jawiki/20170401/ から取得できます. 今回利用するのは2016年10月20日分の以下の2つです. -rw-rw-r-- 1 admin admin 114578262 10月 21 01:59 2016 jawiki-20161020-page.sql.gz -rw-rw-r-- 1 admin admin 574507155 10月 21 01:50 2016 jawiki-20161020
![Wikipediaのdumpから、MeCabユーザー辞書をつくる: 機械学習と自然言語処理と](https://cdn-ak-scissors.b.st-hatena.com/image/square/1c809eba3c2cd24cf92976a583c2d40a2c205995/height=288;version=1;width=512/http%3A%2F%2Fblog.sakura.ne.jp%2Fimg%2Fogp_logo.png)