タグ

plsiに関するtettsyunのブックマーク (2)

  • pLSIを試してみた - のんびり読書日記

    これまでにK-means++とfuzzy c-meansを使用したクラスタリングを試してきましたが、今回はpLSI(probabilistic latent semantic indexing, 潜在的意味インデキシング)によるクラスタリングを試してみようと思います。 pLSIは確率・統計的な枠組みで次元縮約を行う枠組みで、なかなか精度がよいらしく色々な論文で見かけます。Google NewsのレコメンドでもpLSIを使用しており、MapReduceで処理を並列化させて高速に実行しているそうです(論文読んでないので間違っているかも)。また入力ベクトルをあらかじめ重み付けしておく必要がなく、文書であれば単語の頻度をそのまま入力として使用できるのもうれしいところです。 より詳しくは以下のWikipediaのエントリか、書籍をご参照下さい。(書籍は処理結果の表8.4が並びがグチャグチャになってる

    pLSIを試してみた - のんびり読書日記
  • pLSIのプログラムとか - とある研究者の日々

    前にpLSIのプログラムを載せていたが、大規模データに対して実際に使ってみるとメモリを大量に消費するは計算時間がかかるはであまり使いものにならない。基的な部分は問題がないと思うのだが。ということで、格的にメモリ節約と時間高速化を目指す。 前に作ったプログラムでメモリを一番消費しているのはEMのExpectation部分なので、ここを全文書、全単語、全隠れ属性の値を保存しない形に修正する。速度アップを実現するにはメモリに結果を保存して再利用することで計算を減らせばよいが、今回の最終の目的からは無制限には認められない。ということで、CLAPACKを使って行列演算の高速化を実現することに。また、高速化の効果が期待できそうな場所をgprofにより検証しつつ、再計算の負荷を減少することにする。 ということで、少しは高速になったと思うのだが、CLAPACK版を使う前のプログラムで実験を始めたので、

    pLSIのプログラムとか - とある研究者の日々
  • 1