WikipediaはAPIがあったり、データのMySQLダンプを惜しみなく公開していたりする。便利。しかし、いかんせん規模が大きいので、APIアクセスやRDBへの問い合わせに依存したデータ収集は辛いものがある。 今回はWikipediaデータの中でも、特に『カテゴリ』を効率的にdigる方法を fastcat というPythonコードから学ぶ。 ゴール Wikipedia上の、あるカテゴリに対する上位・下位カテゴリの一覧を得る。 たとえば、英語版Wikipediaの Computers というカテゴリには、 上位カテゴリ Office equipment Computing 下位カテゴリ Computer hardware companies Computer architecture Classes of computers Information appliances Computing
![ローカルのRedis上でWikipediaカテゴリをシュッとdigる](https://cdn-ak-scissors.b.st-hatena.com/image/square/541916615021bf6b37ccf8f01d1cbada74bd1f8c/height=288;version=1;width=512/https%3A%2F%2Ftakuti.me%2Fimages%2Fthumbnail.png)