【自然言語処理のためのWikipediaデータの扱い方(#1) 】Wikipedia記事DBの作成 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/YuukiMiyoshi

27users がブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

【自然言語処理のためのWikipediaデータの扱い方(#1) 】Wikipedia記事DBの作成 - Qiita

自然言語処理で遊ぶための学習用データとして魅力的なWikipediaのデータですが、ダウンロード可能なDump... 自然言語処理で遊ぶための学習用データとして魅力的なWikipediaのデータですが、ダウンロード可能なDumpデータは3GB程度と容量が大きく、形式はXMLデータだったりと扱うのが大変です。もしDBに格納されていれば条件検索して記事数など確認しながら必要なデータだけ取り出すことができて便利です。今回はファイルとして持ち運びにも便利なSQLiteでWikipediaの記事DBを作成します。目的・Wikipediaの記事データをDB(SQLite)に格納する・記事名でパターン検索して、タイトルに特定の文字を含む記事データを抽出してみる。方法(概要) ・Wikipadiaのダンプデータをダウンロードする・Wikiextractorでテキストを整形しつつjsonデータとして抽出する・抽出したjsonデータを拙作のPythonスクリプトwikiextractor2sqlite(※)を用い

ブックマークしたユーザー

ikuyuzak2021/09/08
gengohouse2021/09/07
primarytext2020/03/24
simics-ja2020/03/23
sakito09022020/03/22
bluescreen2020/03/22
takashi-hirose2020/03/22
Hiro_Matsuno2020/03/22
machupicchubeta2020/03/22
onetwodon2020/03/22
yag_ays2020/03/21
Mickey3902020/03/21
clavier2020/03/21
suzu-yuki2020/03/21
whitz2020/03/21
gayou2020/03/21
yuiseki2020/03/21

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx