サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ドラクエ3
www.takasay.com
日本語Wikipediaのダンプデータ中の本文を利用したい。 ただ、単純にパースするだけではWiki記法の記号等が邪魔である。 というわけでWikipedia Extractorを利用して本文だけテキストとして抽出します。 Wikipedia Extractorの他にもパースするためのライブラリはいくつかあるようなので、用途によっては別のライブラリを使用したほうが良さそう。 Alternative parsers - MediaWiki 環境 Mac OSX Yosemite Python v2.7.11 Wikipedia Extractor v2.4 20GB程度のディスク空き容量 出力結果例 抽出処理後に生成されるXMLファイルは下記のようなdoc要素の集まりになります。 <doc>...</doc> <doc>...</doc> ... <doc>...</doc> 具体的な例とし
このページを最初にブックマークしてみませんか?
『www.takasay.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く