Canon 2012年9月13日 トピックモデル概論 東京工業大学 計算工学専攻 杉山 将 sugi@cs.titech.ac.jp http://sugiyama-www.cs.titech.ac.jp/~sugi/ 概要 文書のモデル化は,自然言語処理や 機械学習の分野で盛んに研究されて いる 本講義では,文書のモデル化技術の 発展の経緯を概観する 2 講義の流れ 1. 2. 3. 4. 5. 6. 潜在意味解析(LSA) 多項混合(MM)モデル ポリヤ混合(PM)モデル 確率的潜在意味解析(pLSA)モデル 潜在的ディリクレ配分(LDA)モデル 拡張LDAモデル 3 文書単語行列 :全文書データ(文書数 :文書(長さ ) :単語(語彙数 ) :文書 中の単語 の出現回数を 要素に持つ文書単語行列 (大きさ ,一般にスパース) ) 4 潜在意味解析(LSA) 文書
潜在意味解析(せんざいいみかいせき、英: Latent Semantic Analysis、略称: LSA)は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する技術である。潜在的意味解析とも。 1988年、アメリカ合衆国でLSAの特許が取得されている[1]。情報検索の分野では、潜在的意味索引または潜在意味インデックス(英: Latent Semantic Indexing, LSI)とも呼ばれている。 LSA では、各文書における用語の出現を表した文書-単語マトリクスが使われる。これは各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには tf-idf (term frequency–inverse document frequency) が用いられ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く