タグ

to seeとlsiに関するmogwaingのブックマーク (2)

  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 18 Matrix decomposition and latent semantic indexing (pp.369-384) - シリコンの谷のゾンビ

    ちょっと飛ばして,先にIIR18章を読んでみた.単語文書行列を特異値分解して新しい空間でベクトル空間モデルを使うというLSIの話. ページ数が少なかったので,魔が差して翻訳もしてみた.さらに数式が多いのでTeXで書いてみた.ここまで来たらこだわろうとAB型の悪い癖が出て,数式や演習も全部訳してみた.ついカッとなってやってしまった.今は公開している.でも反省はしていない.まだやっつけの部分があるのでこつこつとバージョンアップしてきます. Introduction to information retrieval: 18 Matrix decomposition and latent semantic indexing(和訳) 大体1ページ1時間.こつこつ夜なべをして3日間くらいかかりました.否が応でも精読するので,とても理解が深まりました.じっくり読むのも翻訳作業もとても楽しかったので,なん

    18 Matrix decomposition and latent semantic indexing (pp.369-384) - シリコンの谷のゾンビ
  • 1