タグ

indexとsearchに関するmanabouのブックマーク (2)

  • ハクビシンにもわかる全文検索 - Qiita

    高速な全文検索アルゴリズムであるFM-indexについて解説する。理解しがたい点や間違っている点があれば是非コメントで指摘してほしい。 概要 FM-indexはリニアな文字列に対して検索をするアルゴリズムで、主に簡潔データ構造とBWT(およびLF mapping)という二つのアイデアから成り立っている。BWTはBurrows-Wheeler変換のことで、文字列を特殊な並び順に変換するという可逆関数である。BWTされた文字列を簡潔データ構造固有の操作をすることで、クエリ文字列の長さに比例した短い時間で文字列を探し出すのがFM-indexだ。 簡潔データ構造 簡潔データ構造に関してはFM-indexで必要となる二つの関数だけ説明して、詳細は次の機会に譲るとする。さて、二つの関数はともに文字列のある位置より前の部分に含まれている文字の数を数え上げるというものでrank()とrankLessTha

    ハクビシンにもわかる全文検索 - Qiita
  • Similarity Joinの話 - |ω・)ノ <黒猫の気まぐれ日記

    何か論文読んで,それについて発表するという授業があるのですが,そこでSimilarity Joinについて調べたのでここにメモします.●Similarity Joinって何?すごく大雑把に言うと,類似しているものを結合すること.そのまんまですね.例えば,上図のように4つのタプルがあったら,それぞれ類似しているもの同士でJoinします.普通は閾値を与えて,類似度が閾値以上であれば類似していると判断し,Joinします.#出力の部分は出力例であり,実際には他の組み合わせも出力されうると思います●類似しているってどうやって判断するの?Similarity Joinを行うためには,類似度の高い組み合わせを見つける必要があります.類似度を算出する方法はよく使われる手法がいくつかあります.(Jaccard, cosine, overlapなどなど)他にも,距離という概念でみると,Hamming dist

  • 1