タグ

gensimに関するsudo1101のブックマーク (1)

  • tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算

    tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算メモ。 tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算 ツイッターの@ts_3156のフォロー情報を使って、ツイッターユーザーの類似度計算を行いました。 結論だけ先に書いておくと、プロフィール情報だけを使って類似度計算を行なっても、全然いい結果にはならないです(^^) その理由あれこれは下の方に書いてあります。 「じゃあ、正確なツイッターユーザーの類似度計算はどうやればいいの?」についても下の方に書いておきました(^^) 今回書いたプログラムは、ツイッタープロフィールだけでなく文章集合の類似度計算全般に使えるので、よかったら各自で何かしら使ってみてください(^^) サンプルコードの動作環境 python2.7(2系なら何でもOKかも) もしない場合は、「yum install python27」でイン

  • 1