タグ

2016年10月7日のブックマーク (4件)

  • scikit-learnとgensimでニュース記事を分類する - Qiita

    こんにちは、初心者です。 適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。 何をやるの? データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。 トピックニュース、Sports Watch、ITライフハック、家電チャンネル 、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。 データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。 これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が

    scikit-learnとgensimでニュース記事を分類する - Qiita
  • tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算

    tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算メモ。 tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算 ツイッターの@ts_3156のフォロー情報を使って、ツイッターユーザーの類似度計算を行いました。 結論だけ先に書いておくと、プロフィール情報だけを使って類似度計算を行なっても、全然いい結果にはならないです(^^) その理由あれこれは下の方に書いてあります。 「じゃあ、正確なツイッターユーザーの類似度計算はどうやればいいの?」についても下の方に書いておきました(^^) 今回書いたプログラムは、ツイッタープロフィールだけでなく文章集合の類似度計算全般に使えるので、よかったら各自で何かしら使ってみてください(^^) サンプルコードの動作環境 python2.7(2系なら何でもOKかも) もしない場合は、「yum install python27」でイン

  • tfidf、LSI、LDAの違いについて調べてみた

    tfidf、LSI、LDAの意味、違いを調べるために、それぞれの形式のコーパスの中身を調べてみた。そのメモ。 前回のおさらい 前回の記事では、もっとも基的なコーパスの中身を確認してみました。その結果、「コーパスとは、文章集合をベクトル空間に変換したもの」いうことが分かりました。 今回は、基的なコーパス以外の複数のコーパス、特に、tfidf、LSI、LDAで用いるコーパスについて、基的なコーパスとは何が違うのかを調べます。その結果分かったコーパスの違いから、各モデルの違いを理解することを目標とします。 gensimに実装されたtfidfのコーパスの中身を見てみました 今回は、「Topics and Transformations」を参考に進めていきます。 >>> import logging >>> logging.basicConfig(format='%(asctime)s : %

  • コーパスの意味について調べてみた【ら、ベクトル空間だということが分かった】

    コーパスが何なのか分からなかったので、コーパスの意味を調べてみた。そのメモ。 コーパスとは?の疑問に答えられるようになることがこの記事の最終目標です。 gensimに実装されたコーパスの中身を見てみました コーパスの意味を知るには、コーパスをprintしてみて実際のデータ構造を見るのが手っ取り早そうです。 そのために、gensimに実装されたコーパスの中身を見てみることにしました。 gensimのチュートリアル通りに進みます。今回見るのは、「Corpora and Vector Spaces」です。 実際のコードを追っていきます。 >>> import logging >>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) # フォーマットしたprintの