[B! 前処理][テキストマイニング] zmsgnkのブックマーク

zmsgnk id:zmsgnk

前処理とテキストマイニングに関するzmsgnkのブックマーク (1)

テキストマイニングの前処理。名詞抽出、ストップワード除去、珍しい単語の除去
pythonを使ったテキストマイニングの前処理メモ。名詞を抽出し、ストップワードや珍しい単語を除去する方法。名詞を抽出し、ストップワードや珍しい単語を除去するテキストマイニングにおける定番の前処理らしいです。pythonで試してみました。もっと膨大な文章集合を実践的に扱う場合は、「10%以上の文章にでてきた単語を除去」とかもやるみたいです。正解があるわけではなく、扱うデータと目的に合わせて適宜変えるとよいと思います。 #coding:utf-8 import MeCab def extractKeyword(text): u"""textを形態素解析して、名詞のみのリストを返す""" tagger = MeCab.Tagger() encoded_text = text.encode('utf-8') node = tagger.parseToNode(encoded_text).n
zmsgnk 2014/10/10
テキストマイニング

形態素解析

python

前処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx