【Python】10GB以上のXMLデータ中のテキストデータを淡々と抜き出す。 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/e-a-st

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

【Python】10GB以上のXMLデータ中のテキストデータを淡々と抜き出す。 - Qiita

お相手は「ウィキペディア日本語版」のXMLファイル久々に自然言語処理をしてみようと思い、Wikipedia:... お相手は「ウィキペディア日本語版」のXMLファイル久々に自然言語処理をしてみようと思い、Wikipedia:データベースダウンロードから「ウィキペディア日本語版」をダウンロードしてみた。 Wikipediaはクローリング禁止要請出してる代わりに、ダンプをダウンロードさせてくれるのである。素晴らしい...のだが、ダウンロードされるファイルは単一のXMLファイルである。当然ながらファイルサイズは、ダウンロード後解凍してみると、12GB超えと立派な大きさに。 $ ll -rwxrwxrwx 1 k k 12927699165 Apr 12 17:17 xml_jawiki-20200401-pages-articles-multistream.xml* <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/" xmlns:xsi=

ブックマークしたユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx