タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

テキストマイニングと青空文庫に関するujigislabのブックマーク (1)

  • Python で MeCab を使ってテキストの内容を形態素解析してみる ~小説内の頻出単語の抽出~ - GIS奮闘記

    日は MeCab を使ってみようと思います。MeCab については最近、以下エントリーでインストール方法と簡単な使い方を紹介しましたが、エントリーではより実践的な使い方を紹介したいと思います。 www.gis-py.com やってみること 「坊ちゃん」(夏目漱石)のテキストデータをダウンロード 正規表現で不要な文字を除去する(ここはなくても形態素解析が可能ですが、より正確に解析したかったので、この手順を入れました) MeCab を使用して頻出単語(名詞)TOP10を抽出する データ入手先 青空文庫さんで色々な小説のテキストデータをダウンロードすることができます。 青空文庫 Aozora Bunko 坊ちゃんのデータはここですね。 図書カード:坊っちゃん 中身はこんな感じです。《にさんち》のようにフリガナが入っていたり、ヘッダーやフッターも除去する必要がありますね 実行環境 Window

    Python で MeCab を使ってテキストの内容を形態素解析してみる ~小説内の頻出単語の抽出~ - GIS奮闘記
    ujigislab
    ujigislab 2021/05/07
    「坊ちゃん」(夏目漱石)のテキストデータをダウンロード、正規表現で不要な文字を除去する、MeCab を使用して頻出単語(名詞)TOP10を抽出する
  • 1