Wikipediaのダンプファイルからタイトルと概要を抽出する

テクノロジーカテゴリーの変更を依頼記事元:

blog.i-o.io

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Wikipediaのダンプファイルからタイトルと概要を抽出する

Wikipediaはデータベース・ダンプを提供している。 Abstractをまとめたjawiki-latest-abstract.xml.gzも... Wikipediaはデータベース・ダンプを提供している。 Abstractをまとめたjawiki-latest-abstract.xml.gzも配布しているが、このデータは使いものにならない…w そこでjawiki-latest-pages-articles.xml.bz2を使う。このファイルをbun zip2コマンドで展開するとjawiki-latest-pages-articles.xmlを得る。なお、展開したファイルのサイズは10GBを超えるため、ストレージの容量に注意する。次のコードはjawiki-latest-pages-articles.xmlから有効なtitleとabstractを表示する。 #coding: UTF-8 import sys import re # 読み込むファイルの名前を指定する file_name = 'jawiki-latest-pages-art

wikipedia

ブックマークしたユーザー

shikimihuawei2020/02/25

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx