エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Wikipediaのダンプファイルからタイトルと概要を抽出する
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Wikipediaのダンプファイルからタイトルと概要を抽出する
Wikipediaはデータベース・ダンプを提供している。 Abstractをまとめたjawiki-latest-abstract.xml.gzも... Wikipediaはデータベース・ダンプを提供している。 Abstractをまとめたjawiki-latest-abstract.xml.gzも配布しているが、このデータは使いものにならない…w そこでjawiki-latest-pages-articles.xml.bz2を使う。 このファイルをbunzip2コマンドで展開するとjawiki-latest-pages-articles.xmlを得る。 なお、展開したファイルのサイズは10GBを超えるため、ストレージの容量に注意する。 次のコードはjawiki-latest-pages-articles.xmlから有効なtitleとabstractを表示する。 #coding: UTF-8 import sys import re # 読み込むファイルの名前を指定する file_name = 'jawiki-latest-pages-art