2020年11月22日のブックマーク (1件)

  • Pythonによる自然言語処理①~janomeを使ってテキストから名詞を抽出する

    テキストデータ(自然言語)の前処理でよくやること 分かち書き URL,スペース,句読点, 記号などのノイズ削除 改行の排除 ・文字データの辞書ベクトル化 自然言語のテキストデータを用意する データは論ウィットさんが提供してくれているライブドアニュースコーパスを使用します。 janomeのインストール !pip install janome $pip install janome janomeでテキストデータを前処理してみる(形態素解析) インストールが終わったらまずは適当にテキストファイルを選んで、janomeで形態素解析してみましょう。テキストデータの前処理として今回は形態素解析を行っていきたいと思います #ライブラリの読み込み from janome.tokenizer import Tokenizer from janome.analyzer import Analyzer from

    Pythonによる自然言語処理①~janomeを使ってテキストから名詞を抽出する
    gengohouse
    gengohouse 2020/11/22
    “Pythonによる自然言語処理①~janomeを使ってテキストから名詞を抽出する”