表1.転置ファイル例 このような形式で転置インデックスを保存しておく事により、インデッキシングの際や、文章の検索の際に、二分木探索のアルゴリズムや、その他のアルゴリズムを用いる事によって、高速に文章を検索する事が可能になります。 次に、「では実際どのように、文章中の単語を抽出すればいいんだ?」という疑問が湧いてきたと思うので、以下、文字列抽出の方法について詳しく見ていく事にします。 1.n-gram法 「Nグラム法」等と呼ばれる、単純ですがパワフルな文字列分割アルゴリズムで、Nで指定した単語の長さに、先頭から1文字ずつ文字列を分割します。 例)N=2の時、「情報検索」という文字列に対して、N-gramを実行した例 情報 報検 検索 索 このように、文字列を分割する事で、「情報」と「検索」の単語が正しく抽出されるため、単語の抽出の取りこぼしを防げます。 しかしながら、この方法では、「報検」等