[B! python][テキストマイニング] zmsgnkのブックマーク

zmsgnk id:zmsgnk

pythonとテキストマイニングに関するzmsgnkのブックマーク (3)

http://blog.yuku-t.com/entry/20110623/1308810518
zmsgnk 2014/10/10
gensim

python

自然言語処理

テキストマイニング

lda

LSI
リンク
テキストマイニングの前処理。名詞抽出、ストップワード除去、珍しい単語の除去
pythonを使ったテキストマイニングの前処理メモ。名詞を抽出し、ストップワードや珍しい単語を除去する方法。名詞を抽出し、ストップワードや珍しい単語を除去するテキストマイニングにおける定番の前処理らしいです。pythonで試してみました。もっと膨大な文章集合を実践的に扱う場合は、「10%以上の文章にでてきた単語を除去」とかもやるみたいです。正解があるわけではなく、扱うデータと目的に合わせて適宜変えるとよいと思います。 #coding:utf-8 import MeCab def extractKeyword(text): u"""textを形態素解析して、名詞のみのリストを返す""" tagger = MeCab.Tagger() encoded_text = text.encode('utf-8') node = tagger.parseToNode(encoded_text).n
zmsgnk 2014/10/10
テキストマイニング

形態素解析

python

前処理
リンク
pythonによる文字列の正規化 - TorasenLab@はてな
テキストマイニングなどを行うためには文書、文、単語などの文字列の正規化が重要です。単語の大文字小文字の統一、半角全角の統一などをする必要があります。文字列の正規化のために利用しているpythonコードを以下に書いておきます。今後増える可能性もあります。実行環境 Ubuntu 10.04 64ビット python 2.6.5 unicode型に変換する def unicode_ignore_invalid_char(text): if isinstance(text, str): return text.decode('utf-8', 'ignore') return text 変換不能な文字列を無視してstr型からunicode型に変換する。 str型に変換する def str_ignore_invalid_char(text): if isinstance(text, unico
zmsgnk 2014/09/30
python

*あとで読む

テキストマイニング
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx