[B! suffixarrays] iizukawのブックマーク

iizukaw id:iizukaw

suffixarraysに関するiizukawのブックマーク (2)

高速かつ省メモリで文字列を扱うデータ構造「wavelet tree」
はじめに大規模なデータを扱うアプリケーションでは、速度とともに作業領域量も大きな問題となります。作業領域がメインメモリに収まらない場合、スワッピングが発生し、大幅な速度低下につながります。そのため近年、データ構造は高速なだけでなく、作業領域量が小さいことも求められています。今回紹介するのは2003年に提案されたデータ構造、wavelet tree（以下「WT」と表記）です。WTは圧縮索引やSuccinct Data Structureなど、データをコンパクトに表現する際に重要なデータ構造です。WTは文字列T[0...n-1]が与えられた時、次の2つの操作を定数時間でサポートします。 rank(p, c)――T[0...p]中のcの出現回数を返す select(i, c)――(i+1)番目のcの位置を返す WTの作業領域量は、文字列をそのまま保存した時の約2倍程度です。対象読者 C++の
iizukaw 2008/11/18
suffixarrays

algorithm
リンク
Compressed Suffix Arrays and Burrows Wheeler transforms
What can you do with a suffix array?Can't stream text -- no suffix linksCan do pattern lookup in O(|P|log|S|) time find(P): i = 0 lo = 0, hi = length(A) for 0<=i<length(P): Binary search for x,y where P[i]=S[A[j]+i] for lo<=x<=j<y<=hi lo = x, hi = y return {A[lo],A[lo+1],...,A[hi-1]} Can do pattern lookup in O(|P|) time (different method than above)Can build `in place' in O(|S| log|S|) timeAlphabe
iizukaw 2008/11/13
compressed

suffixarrays
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx