タグ

2015年9月15日のブックマーク (2件)

  • gensimでLDA(Latent Dirichlet Allocation) – @knok blog

    トピックモデルを試そうとgensimのLdaModelを使ってみたのですが、参考にした記事「LSIやLDAを手軽に試せるGensimを使った自然言語処理入門」は対象とするgensimのバージョンが古いようだったので、現状にあうようアレンジして試してみました。この記事で使ったgensimのバージョンは0.11.1です。 過去のgensimと今のものとでは、メソッド名等の命名規則が変わっています。旧来はcamel caseでしたが、今は小文字とアンダースコアの組み合わせになっています。たとえばnumTopicsという名前付き引数はnum_topicsに変わっています。 それ以外にも多少の違いはあるのですが、yuku_tさんのgistのコードを今のバージョンのgensimで動くように修正したのが以下になります。 #!/usr/bin/python # -*- coding: utf-8 -*-

    tokg
    tokg 2015/09/15
  • 【D3.js】「全ツイート履歴」からWord cloudを作ってみた。

    嗜好がバレる。 自分のすべてのツイートをダウンロードできるようにしました 日の皆さんにも「全ツイート履歴」が使えるようになりました 全ツイートのダウンロードが可能になっていたので、ダウンロードしたtweets.csvを使ってワードクラウドを作成してみました。 example データセット作成 過去の全ツイートから固有名詞を抜き出して出現回数順にランキングにしたデータを作成します。 2007年から使っているわりに、累計ツイート数が10,939件と少ないのでテキスト処理系コマンドとExcelを使って行いました。ツイート数が多い場合は、以下の方法では難しいかもしれません。 まず、Windowsで処理しやすいようにS-JISに変換します。

    【D3.js】「全ツイート履歴」からWord cloudを作ってみた。