LSI については「特異値分解とLSIの意味」でも触れたことがありますが、この時はまだ理解不足だったので改めて解説したいと思います。 LSI (Latent Semantic Indexing) 1は検索などに用いられる次元圧縮手法です。 例えば、「車で行く」と「自動車で行く」は意味として全く同じですが、単語そのものを見ると「車」と「自動車」が異なるため違う文として扱われてしまい、「車」で検索しても「自動車で行く」という文がヒットしません。 しかし、「車」も「自動車」も同じ意味なので同じ文として扱われるようにしたいですよね。 これを実現する手法の1つが LSI です。 ベクトル空間モデル LSI では Bag of Words によるベクトル空間モデルが使用されます。 要は単語の出現順を考慮せず、単語の出現頻度などによって文書をベクトルで表現するモデルです。 例えば次の4つの文書があったと
![潜在的意味インデキシング(LSI)徹底入門](https://cdn-ak-scissors.b.st-hatena.com/image/square/eaf4601adeb65eeac55e973baebf1ca24e73e659/height=288;version=1;width=512/https%3A%2F%2Fabicky.net%2Fassets%2F20120321%2F20120321234137-dc1370eb869e4e9208c385184d2f1ff301f80b89fd6c8433c1946118a4591200a7d717f0c784924411e02380abc61522b95ffa5d3d23205143e5f5b5c6d902f5.png)