www.takasay.com[B!]新着記事・評価 - はてなブックマーク

『www.takasay.com』

【Python】日本語Wikipediaのダンプデータから本文を抽出する - プログラムは、用いる言葉の選択で決まる
3 users
www.takasay.com

日本語Wikipediaのダンプデータ中の本文を利用したい。ただ、単純にパースするだけではWiki記法の記号等が邪魔である。というわけでWikipedia Extractorを利用して本文だけテキストとして抽出します。 Wikipedia Extractorの他にもパースするためのライブラリはいくつかあるようなので、用途によっては別のライブラリを使用したほうが良さそう。 Alternative parsers - MediaWiki 環境 Mac OSX Yosemite Python v2.7.11 Wikipedia Extractor v2.4 20GB程度のディスク空き容量出力結果例抽出処理後に生成されるXMLファイルは下記のようなdoc要素の集まりになります。 <doc>...</doc> <doc>...</doc> ... <doc>...</doc> 具体的な例とし
- テクノロジー
- 2016/11/22 03:13
- あとで読む

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx