
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
【自然言語処理のためのWikipediaデータの扱い方(#1) 】Wikipedia記事DBの作成 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【自然言語処理のためのWikipediaデータの扱い方(#1) 】Wikipedia記事DBの作成 - Qiita
自然言語処理で遊ぶための学習用データとして魅力的なWikipediaのデータですが、ダウンロード可能なDump... 自然言語処理で遊ぶための学習用データとして魅力的なWikipediaのデータですが、ダウンロード可能なDumpデータは3GB程度と容量が大きく、形式はXMLデータだったりと扱うのが大変です。もしDBに格納されていれば条件検索して記事数など確認しながら必要なデータだけ取り出すことができて便利です。今回はファイルとして持ち運びにも便利なSQLiteでWikipediaの記事DBを作成します。 目的 ・Wikipediaの記事データをDB(SQLite)に格納する ・記事名でパターン検索して、タイトルに特定の文字を含む記事データを抽出してみる。 方法(概要) ・Wikipadiaのダンプデータをダウンロードする ・Wikiextractorでテキストを整形しつつjsonデータとして抽出する ・抽出したjsonデータを拙作のPythonスクリプトwikiextractor2sqlite(※)を用い