gengohouseのブックマーク / 2020年11月22日

Pythonによる自然言語処理①～janomeを使ってテキストから名詞を抽出する

1 user
tkstock.site
テクノロジー

テキストデータ(自然言語)の前処理でよくやること分かち書き URL，スペース，句読点，記号などのノイズ削除改行の排除・文字データの辞書ベクトル化自然言語のテキストデータを用意するデータは論ウィットさんが提供してくれているライブドアニュースコーパスを使用します。 janomeのインストール !pip install janome $pip install janome janomeでテキストデータを前処理してみる(形態素解析) インストールが終わったらまずは適当にテキストファイルを選んで、janomeで形態素解析してみましょう。テキストデータの前処理として今回は形態素解析を行っていきたいと思います #ライブラリの読み込み from janome.tokenizer import Tokenizer from janome.analyzer import Analyzer from

Pythonによる自然言語処理①～janomeを使ってテキストから名詞を抽出する

はてなブックマーク

タグ

2020年11月22日のブックマーク (1件)

Pythonによる自然言語処理①～janomeを使ってテキストから名詞を抽出する

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス