タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

lsiに関するmroriiのブックマーク (4)

  • Loading...

    mrorii
    mrorii 2010/05/14
    すごく分かりやすい
  • 芸能人の相関関係を探ってみるスクリプト - download_takeshi’s diary

    ちょっとした実験をしてみました。芸能人の相関関係を機械的に探索してみます。 具体的には「○○というタレントと関係が深い芸能人は?」といった、芸能人にフォーカスした類似検索みたいな実験です。 技術的には「潜在的意味インデキシング」(Latent Semantic Indexing)といった手法を使います。 これは普通は自然言語処理の世界で使われるテクニックですが、なにも言語だけでなく他のデータ素材でも面白い結果が得られるかもしれないので、やってみようという試みです。 以下に大まかな手順をまとめます。 wikipedia から有名人のリストを抽出 それらの有名人リストについて、一人ずつ「誰と関連が深いか」を集計。具体的には有名人個々のwikipediaのページ中に、先ほど抽出しておいた人名リストとマッチする人名がどれだけ掲載されているかをピックアップしていきます。 上記の方法で有名人の間の相関

    芸能人の相関関係を探ってみるスクリプト - download_takeshi’s diary
  • Probabilistic Latent Semantic Indexing (SIGIR '99)

    Next: LSI Probabilistic Latent Semantic Indexing (SIGIR '99) Thomas Hofmann International Computer Science Institute, Berkley, CA & EECS Department, CS Divison, UC Berkeley hofmann@cs.berkley.edu 発表者 工藤 拓 taku-ku@is.aist-nara.ac.jp 自然言語処理学講座 M1 平成12年7月4日 LSI Aspect Model EM アルゴリズムによるパラメータ学習 PLSI と LSI の比較 U-PLSI,Q-PLSI 実験,結果 考察 この文書について... Taku Kudo 平成12年7月4日

    mrorii
    mrorii 2010/01/22
  • pLSIを試してみた - のんびり読書日記

    これまでにK-means++とfuzzy c-meansを使用したクラスタリングを試してきましたが、今回はpLSI(probabilistic latent semantic indexing, 潜在的意味インデキシング)によるクラスタリングを試してみようと思います。 pLSIは確率・統計的な枠組みで次元縮約を行う枠組みで、なかなか精度がよいらしく色々な論文で見かけます。Google NewsのレコメンドでもpLSIを使用しており、MapReduceで処理を並列化させて高速に実行しているそうです(論文読んでないので間違っているかも)。また入力ベクトルをあらかじめ重み付けしておく必要がなく、文書であれば単語の頻度をそのまま入力として使用できるのもうれしいところです。 より詳しくは以下のWikipediaのエントリか、書籍をご参照下さい。(書籍は処理結果の表8.4が並びがグチャグチャになってる

    pLSIを試してみた - のんびり読書日記
    mrorii
    mrorii 2010/01/22
  • 1