source: http://www.cs.princeton.edu/~blei/papers/BleiNgJordan2003.pdf There is a kind of buzz about Probabilistic Latent Semantics Indexing, so this post goes. From VSM to LSI Prior to 1988 the prevalent IR model was Salton’s Vector Space Mo... 続きを読む
ちょっとした実験をしてみました。芸能人の相関関係を機械的に探索してみます。具体的には「○○というタレントと関係が深い芸能人は?」といった、芸能人にフォーカスした類似検索みたいな実験です。技術的には「潜在的意味インデキシング」(Latent Semantic ... 続きを読む
id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどの本を... 続きを読む
情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。d1d2d3d4Apple3... 続きを読む
id:naoyaさんやたつをさんなどの超有名人な方々が以前から実施されている「IIR輪読会」というものがありまして、どうやら今回は第18章の "Matrix decompositions and latent semantic indexing"を輪読したようです。http://d.hatena.ne.jp/naoya/20090208http:/... 続きを読む
ちょっと飛ばして,先にIIR18章を読んでみた.単語文書行列を特異値分解して新しい空間でベクトル空間モデルを使うというLSIの話.ページ数が少なかったので,魔が差して翻訳もしてみた.さらに数式が多いのでTeXで書いてみた.ここまで来たらこだわろうとAB型... 続きを読む