
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
3. Pythonによる自然言語処理 1-2. コーパスの作成方法 : 青空文庫 - Qiita
自然言語処理の試行につけてはコーパス(まとまった量のテキスト)が必要になります。 しばしば利用させ... 自然言語処理の試行につけてはコーパス(まとまった量のテキスト)が必要になります。 しばしば利用させていただく『青空文庫』は、近代文学など著作権が切れた作品のテキストを公開しているインターネット上の図書館です。 自然言語処理の素材として『青空文庫』から作品を取得し、コーパス用に加工する手順を整理しておきます。 1. ファイルを取得して本文のみ抽出 ⑴ 各種モジュールのインポート re:Regular Expressionの略で、正規表現の操作をするためのモジュール zipfile:zipファイルを操作するためのモジュール urllib.request:インターネット上のリソースを取得するためのモジュール os.path:パス名を操作するためのモジュール glob:ファイルパス名を取得するためのモジュール ⑵ ファイルパスの取得 ここでは、宮沢賢治の『銀河鉄道の夜』を素材とします。 『青空文庫
2022/03/22 リンク