PLSAとLDA 昨今のビッグデータ時代の分析では高次元データを扱うことも多く、このような次元圧縮の技術が注目されているが、実際にはPLSAよりもそれと同様の手法であるLDAの方が世間的に認知されているといえるだろう。この手法はトピックモデルと呼ばれ、元々LSA (Latent Semantic Analysis)という手法があり(Deerwester et al, 1990)、それを確率的な処理をして改良したものがPLSAであり、さらにその拡張版として開発されたのがLDA (Latent Dirichlet Allocation)である(Blei et al, 2003)。 PLSAとLDAの基本的な考え方は同じだが、個々の文書における各トピックの現れやすさを表す確率が、PLSAではあくまで学習させた観測データから定義されるが、LDAではディリクレ分布という確率分布を仮定して生成させる。
![PLSA(確率的潜在意味解析法)|Deloitte Analytics|デロイト トーマツ グループ|Deloitte](https://cdn-ak-scissors.b.st-hatena.com/image/square/26fccc3d38c4176f6bab6e708b9893f043b9d9ef/height=288;version=1;width=512/https%3A%2F%2Fwww2.deloitte.com%2Fcontent%2Fdam%2FDeloitte%2Fjp%2FImages%2Fpromo_images%2Fall%2Fpair%2Fjp-all-s-195.jpg)