gengohouseのブックマーク - はてなブックマーク

gengohouse id:gengohouse

ブックマーク / boomin.yokohama (1)

【ソースコード付き】日本語テキストマイニングを行うために必要な前処理 | ITに頼って生きていく
はじめに日本語のテキストマイニングを粉うには、いろいろと前処理が必要となります。日本語じゃなくても必要なのですが、特に日本語の場合、文章内で単語が分かれていないために、単語ごとに分解する「分かち書き」が必要となります。これは、全世界リアルタイム麺活監視システムで表示される、監視上法の1つです。世界の麺活erたちがtwitterでつぶやいた単語を分かち書きして、単語に分解したあと、よく使われる単語をより大きく表示させる、タグクラウドと呼ばれる可視化手法の一つです。こうすることで、よく使用される単語や、関連する単語を浮かび上がらせることができます。しかし、そもそも分かち書きするためには、辞書をもとに品詞分解しないといけないため、それをそれなりの精度と速度で実行するためには、ライブラリに頼らざるを得ません。そこで今回、ライブラリの一つであるMecabを使って、うまいこと前処理
gengohouse 2020/07/25
テキストマイニング

前処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx