タグ

ブックマーク / hivecolor.com (5)

  • tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算

    tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算メモ。 tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算 ツイッターの@ts_3156のフォロー情報を使って、ツイッターユーザーの類似度計算を行いました。 結論だけ先に書いておくと、プロフィール情報だけを使って類似度計算を行なっても、全然いい結果にはならないです(^^) その理由あれこれは下の方に書いてあります。 「じゃあ、正確なツイッターユーザーの類似度計算はどうやればいいの?」についても下の方に書いておきました(^^) 今回書いたプログラムは、ツイッタープロフィールだけでなく文章集合の類似度計算全般に使えるので、よかったら各自で何かしら使ってみてください(^^) サンプルコードの動作環境 python2.7(2系なら何でもOKかも) もしない場合は、「yum install python27」でイン

  • tfidf、LSI、LDAの違いについて調べてみた

    tfidf、LSI、LDAの意味、違いを調べるために、それぞれの形式のコーパスの中身を調べてみた。そのメモ。 前回のおさらい 前回の記事では、もっとも基的なコーパスの中身を確認してみました。その結果、「コーパスとは、文章集合をベクトル空間に変換したもの」いうことが分かりました。 今回は、基的なコーパス以外の複数のコーパス、特に、tfidf、LSI、LDAで用いるコーパスについて、基的なコーパスとは何が違うのかを調べます。その結果分かったコーパスの違いから、各モデルの違いを理解することを目標とします。 gensimに実装されたtfidfのコーパスの中身を見てみました 今回は、「Topics and Transformations」を参考に進めていきます。 >>> import logging >>> logging.basicConfig(format='%(asctime)s : %

  • コーパスの意味について調べてみた【ら、ベクトル空間だということが分かった】

    コーパスが何なのか分からなかったので、コーパスの意味を調べてみた。そのメモ。 コーパスとは?の疑問に答えられるようになることがこの記事の最終目標です。 gensimに実装されたコーパスの中身を見てみました コーパスの意味を知るには、コーパスをprintしてみて実際のデータ構造を見るのが手っ取り早そうです。 そのために、gensimに実装されたコーパスの中身を見てみることにしました。 gensimのチュートリアル通りに進みます。今回見るのは、「Corpora and Vector Spaces」です。 実際のコードを追っていきます。 >>> import logging >>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) # フォーマットしたprintの

  • テキストマイニングの前処理。名詞抽出、ストップワード除去、珍しい単語の除去

    pythonを使ったテキストマイニングの前処理メモ。名詞を抽出し、ストップワードや珍しい単語を除去する方法。 名詞を抽出し、ストップワードや珍しい単語を除去する テキストマイニングにおける定番の前処理らしいです。pythonで試してみました。 もっと膨大な文章集合を実践的に扱う場合は、「10%以上の文章にでてきた単語を除去」とかもやるみたいです。正解があるわけではなく、扱うデータと目的に合わせて適宜変えるとよいと思います。 #coding:utf-8 import MeCab def extractKeyword(text): u"""textを形態素解析して、名詞のみのリストを返す""" tagger = MeCab.Tagger() encoded_text = text.encode('utf-8') node = tagger.parseToNode(encoded_text).n

  • mecabの辞書に新しい単語を登録する方法

    mecabの辞書に新しい単語を登録する方法のメモ。 mecabのインストール mecabをインストールすると、mecabコマンドが使えるようになります。 wgetするファイルは2013年4月時点で最新です。 yum install -y gcc-c++ cd /usr/local/src wget https://mecab.googlecode.com/files/mecab-0.996.tar.gz tar zxfv mecab-0.996.tar.gz cd mecab-0.996/ ./configure make make check make install mecab -v

  • 1