ツイッターの男女判定(前回の記事)のために、LDAを使ったテキストマイニングがやりたくなった。そのインストール手順メモ。 LDA(Latent Dirichlet Allocations)を使うために現時点で一番簡単な方法は、pythonのgensimというパッケージを使う方法のようです。その手順を書きます。 インストール前の注意事項 pythonに必要なパッケージ類は全部ソースからインストールしています。 ソースからインストールしない方法もあるのですが、2013年4月時点では、pythonに詳しくないと難しいので全くおすすめしません。対象とするOSはAmazon Linuxです。 pythonはyumで使われてたりするので、システムのpythonのバージョンを変えると問題が起きます。なので、この記事ではpythonを特定の場所にインストールしています。 yumからインストールする系のパッ