エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
【Python】10GB以上のXMLデータ中のテキストデータを淡々と抜き出す。 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【Python】10GB以上のXMLデータ中のテキストデータを淡々と抜き出す。 - Qiita
お相手は「ウィキペディア日本語版」のXMLファイル 久々に自然言語処理をしてみようと思い、Wikipedia:... お相手は「ウィキペディア日本語版」のXMLファイル 久々に自然言語処理をしてみようと思い、Wikipedia:データベースダウンロードから「ウィキペディア日本語版」をダウンロードしてみた。 Wikipediaはクローリング禁止要請出してる代わりに、ダンプをダウンロードさせてくれるのである。素晴らしい...のだが、ダウンロードされるファイルは単一のXMLファイルである。当然ながらファイルサイズは、ダウンロード後解凍してみると、12GB超えと立派な大きさに。 $ ll -rwxrwxrwx 1 k k 12927699165 Apr 12 17:17 xml_jawiki-20200401-pages-articles-multistream.xml* <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/" xmlns:xsi=