タグ

algorithmとsearchに関するhide-Kのブックマーク (2)

  • 全文検索エンジンSedue - テクノロジー

    全文検索では検索要求に対し、「漏れなく」「高速」かつ「正確」に結果を返す必要があります。 この前者二つの実現のためにSedueではCompressed Suffix Arrays(CSA)と呼ばれる索引を利用しています。また、「正確」な結果を実現するために形態素解析や文書情報を解析した結果を利用したランキングを利用しています。これらを順に解説していきます。 Compressed Suffix Arrays Sedueは全文検索を実現するのにCompressed Suffix Arrays (CSA)を利用しています。従来の全文検索システムでは前もって辞書などで決めておいた各単語の出現位置を記録した転置ファイル方式、または、全ての長さNの部分文字列の出現位置を記録したn-gram方式が利用されていました。 転置ファイル方式では高速な検索が実現できる一方、検索漏れが生じる恐れがあり、またn-g

  • 接尾辞配列 - Wikipedia

    接尾辞配列(せつびじはいれつ)やサフィックス・アレイ(英: suffix array)とは、文字列の接尾辞(開始位置を異にし終端位置を元の文字列と同じくする部分文字列)の文字列中の開始位置を要素とする配列を、接尾辞に関して辞書順に並べ替えて得られる配列である。接尾辞木の配列版。主に文字列探索、全文検索などに利用される。1990年に Udi Manber と Gene Myers が発表した[1]。

    hide-K
    hide-K 2008/11/21
    suffix array
  • 1