概要 今回は、基礎的な文書検索手法である「ベクトル空間法」を紹介します現在では世の中に様々な検索エンジンが存在します。それらは様々なアルゴリズムを組み合わせ、検索文字列から妥当な結果を導き出すように調整されています。「ベクトル空間法」単体では、そこまでの強力なアルゴリズムを含んでいないので、ある程度の検索性能を得ることしかできません。しかし、単純な仕組みでそこそこの成果を出すことができるので、ちょっとしたものを作りこむ際には重宝します。以下では、その考え方について、簡単に解説します。 文書のベクトル表現 「ベクトル空間法」という名前の由来通り「ベクトル」を使います。文書をベクトル化し、ベクトル間の類似関係を用いて検索を行う手法です。 そもそも文書を処理する際に、文字データのまま扱うのは非常に困難です。不可能ではありませんが、現実的でないような膨大な計算時間がかかる場合があります。それを現実