【Python】日本語Wikipediaのダンプデータから本文を抽出する - プログラムは、用いる言葉の選択で決まる

テクノロジーカテゴリーの変更を依頼記事元:

www.takasay.com

3 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

【Python】日本語Wikipediaのダンプデータから本文を抽出する - プログラムは、用いる言葉の選択で決まる

日本語Wikipediaのダンプデータ中の本文を利用したい。ただ、単純にパースするだけではWiki記法の記号... 日本語Wikipediaのダンプデータ中の本文を利用したい。ただ、単純にパースするだけではWiki記法の記号等が邪魔である。というわけでWikipedia Extractorを利用して本文だけテキストとして抽出します。 Wikipedia Extractorの他にもパースするためのライブラリはいくつかあるようなので、用途によっては別のライブラリを使用したほうが良さそう。 Alternative parsers - MediaWiki 環境 Mac OSX Yosem ite Python v2.7.11 Wikipedia Extractor v2.4 20GB程度のディスク空き容量出力結果例抽出処理後に生成されるXMLファイルは下記のようなdoc要素の集まりになります。 <doc>...</doc> <doc>...</doc> ... <doc>...</doc> 具体的な例とし

あとで読む

ブックマークしたユーザー

kanpari44232020/04/19
yuiseki2020/03/21

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx