[B! 自然言語処理][Janome] rabbit2goのブックマーク

rabbit2go id:rabbit2go

自然言語処理とJanomeに関するrabbit2goのブックマーク (3)

Pythonでトピックモデル　Word Cloud と LDA - 見習いデータサイエンティストの隠れ家
SNSがコミュニケーションのインフラになりつつあることで、世の中は言葉で溢れています。この膨大な言葉の文章をまとめることで一つ一つの文章からはわからない傾向を新たに獲得することができます。具体的には、文章をカテゴライズして分類することで、どのカテゴリが人気なのかがわかったりします。これは機械学習の分類問題としてよく扱われていますが、重要な前提として「各文章は一つのカテゴリに属す」としています。しかしながら、いくつかのトピックが含まれている文章は多々あります。ファミレスでよく聞く井戸端談義はトピックだらけです。そこで、一つのカテゴリに分類するのではなく、分類に重要な単語（トピック）の重み付けで分類するようにしたのが、トピックモデルです。今回は、文章の傾向を出現頻度やトピック抽出により理解していきます。そのために、単語の出現頻度をインパクトのある可視化をするWord Cloudと各文章をトピ
rabbit2go 2020/01/26
Python

Janome

WordCloud

自然言語処理

LDA
リンク
Python janomeのanalyzerが便利 - け日記
前回の投稿でも形態素解析に利用したjanomeですが、形態素解析を単純にラッピングするだけでなく、いくつかシンプルで便利な機能も実装されています。今回は、形態素解析以外の前処理も簡単に統合できるanalyzerについて紹介します。前処理が必要なデータ前処理が必要となるデータの例として、太宰治著「走れメロス」を青空文庫からダウンロードしてきます(原文はこちら)。 import urllib.request # 「走れメロス」を青空文庫からダウンロード url = 'http://www.aozora.gr.jp/cards/000035/files/1567_14913.html' html = '' with urllib.request.urlopen(url) as response: html = response.read().decode('shift_jis') prin
rabbit2go 2020/01/01
Python

形態素解析

自然言語処理

Janome
リンク
Python, Janomeで日本語の形態素解析、分かち書き（単語分割） | note.nkmk.me
JanomeはPythonの形態素解析エンジン。日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き（単語に分割）したりすることができる。pipでインストール可能。 mocobeta/janome: Japanese morphological analysis engine written in pure Python Welcome to janome's documentation! (Japanese) — Janome v0.4 documentation (ja) janome package — Janome API reference v0.4 ここでは以下の内容について説明する。 Janomeのインストール JanomeとMeCab 解析結果の精度形態素解析の速度 Janomeで形態素解析基本的な使い方 Tokenオブジェクトの属性 Janomeで分かち書
rabbit2go 2020/01/01
形態素解析

自然言語処理

Janome

Python
リンク
1