インターネットの膨大な情報の中から自分が求めるものを探すとき,誰しもまずGoogleなどの検索エンジンを使うだろう。この検索エンジンは,文書中のすべての文字列を検索対象にし,入力された検索語を含む文書を返す。これを全文検索という。 全文検索では,まず検索対象となる文書を短い文字列に区切る。そして,どの文書が区切った文字列を含んでいるかを対応付けた表(インデックス)を作成する。検索文が入力されると,こちらも同じように短く区切り,インデックスと比較する。つまり,両者が同じ文字列を含んでいても,その区切りが異なると正しく検索できない。 実はここに,長きにわたる論争があった。文字の区切り方に二つの有力な手法があるのだ。しかし2002年12月,この論争に決着がついたようだ。国立情報学研究所が主催する検索エンジンの評価型国際会議NTCIR(NII Test Collection for Informa