zmsgnkのブックマーク / 2014年10月10日

zmsgnk id:zmsgnk

2014年10月10日のブックマーク (4件)

http://blog.yuku-t.com/entry/20110623/1308810518
zmsgnk 2014/10/10
gensim

python

自然言語処理

テキストマイニング

lda

LSI
リンク
テキストマイニングの前処理。名詞抽出、ストップワード除去、珍しい単語の除去
pythonを使ったテキストマイニングの前処理メモ。名詞を抽出し、ストップワードや珍しい単語を除去する方法。名詞を抽出し、ストップワードや珍しい単語を除去するテキストマイニングにおける定番の前処理らしいです。pythonで試してみました。もっと膨大な文章集合を実践的に扱う場合は、「10%以上の文章にでてきた単語を除去」とかもやるみたいです。正解があるわけではなく、扱うデータと目的に合わせて適宜変えるとよいと思います。 #coding:utf-8 import MeCab def extractKeyword(text): u"""textを形態素解析して、名詞のみのリストを返す""" tagger = MeCab.Tagger() encoded_text = text.encode('utf-8') node = tagger.parseToNode(encoded_text).n
zmsgnk 2014/10/10
テキストマイニング

形態素解析

python

前処理
リンク
テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録
WindowsでMeCab Pythonを使う（2010/11/21）のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。（Wikipedia『人工知能』を改変）という文章をMeCabで形態素解析して名詞のみ取り出すと、人工知能コンピュータ人間同様知能実現試みため一連基礎技術人工知能名前 1956 年ダートマス会議ジョンマッカーシー
zmsgnk 2014/10/10
形態素解析

データ

MeCab

自然言語処理

python
リンク
Home | Data Science at the Command Line
👋 Hi there! I’m Jeroen. In 2021 I wrote the second edition of Data Science at the Command Line, which you can read entirely for free here. If you find this book helpful, consider spreading the word! You could, for instance, share it on Twitter, write a review on Amazon, or star the Github repository. Much appreciated! Read Data Science at the Command Line for free Be sure to let me know if you ha
zmsgnk 2014/10/10
*あとで読む
リンク
- 2014年10月12日
- 2014年10月10日
- 2014年10月9日