エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
言語処理100本ノック 2020をやった 第3章 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
言語処理100本ノック 2020をやった 第3章 - Qiita
はじめに 満を持して言語処理100本ノック 2020が公開されたので早速やってみます。 第3章ではWikipedia... はじめに 満を持して言語処理100本ノック 2020が公開されたので早速やってみます。 第3章ではWikipediaの記事から正規表現で必要な情報を抽出・整形します。 Wikipediaのマークアップ情報はHelp:早見表 - Wikipedia、API情報はAPI:画像の情報 - MediaWikiに書いてあります。が、マークアップ情報は情報が不完全なのでデータを見たり、Wikipediaのページをみてパターンを洗い出す必要があります。 第3章: 正規表現 Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzがある. 1行に1記事の情報がJSON形式で格納される 各行には記事名が”title”キーに,記事本文が”text”キーの辞書オブジェクトに格納され,そのオブジェクトがJSON形式で書き出される ファイル全体はgzipで圧縮され