[B! suffixarray] hiroyadoraemonのブックマーク

hiroyadoraemon id:hiroyadoraemon

suffixarrayに関するhiroyadoraemonのブックマーク (13)

Algorithm - Suffix Array を JavaScript で再発明してみた : 404 Blog Not Found
2012年01月16日16:30 カテゴリアルゴリズム百選Lightweight Languages Algorithm - Suffix Array を JavaScript で再発明してみた WEB+DB 総集編 [Vol. 1〜60] もう10年以上前に某社のCTOだったころ、Suffix array(接尾辞配列)の解説を毎週の技術者ミーティングでしたら一名を除いて「ハァ?」状態だったことを思い出しつつ。 Suffix Arrayは何が画期的だったのか? 以下は、計算機科学者でなくても直感的に理解できると思います。ソートされていない通常のデータの中にあるサブデータ(キー)を検索しようとすると、データの大きさに比例した時間(O(n))がかかる。ソート済みのデータであれば、二分探索でデータの大きさの対数時間(O(logn))でキーを検索できる。さらにキーからIDを定数時間で作成でき
hiroyadoraemon 2012/01/17
SuffixArray
リンク
お手軽PerlでSuffixArrayに挑戦
試しにPERLでSuffixArrayついでにソートの勉強下記のページを参考にしている http://www.namazu.org/~satoru/unimag/9/ ここに記述されているコードは、実験のために書かれているので、へんなところはご容赦を... インデックスを作ってみる Cで書かれたサンプルをperlでかいてみた。 PERLでもquicksortの関数はあるが、一応PERLでかいてみた。バイナリー形式でインデックスファイルを書き出している。テストのためのサンプルプログラムなので、書き出したあとよみだして表示している。 pushを使って配列を拡大しているが、これってスピード的にいいのだろうか？ pack,unpack関数はいろいろ使いでありそう！！ 1: #!/usr/bin/perl 2: 3: #2003/03/14 4: #UNIXマガジン2002 10月号横着プ
hiroyadoraemon 2010/10/31
suffixarray

Suffix Array
リンク
Compressed Suffix Arrayの解説(1) -Suffix Array- - EchizenBlog-Zwei
< ---- < | > Compressed Suffix Arrayの解説(2) -SAの計算量- > ================================================ 最近(でもないか)話題のCompressed Suffix Array(CSA)について解説してみる。 CSAとはSuffix Array(SA)のインデックスを圧縮して小さくしたもの。大規模テキストデータに対する検索インデックスを作る場合など少しでもインデックスを小さくしたい場合に使われる。 CSAを知るにはSAから！ということで今回はSAの解説を。 Suffix Array(SA)とはデータ構造の一種で事前に(サイズがNの)テキストに対してインデックスを作っておくことでキーとなる文字列を入力として与えるとテキストに含まれるキーの位置をO(logN)で探索できる、というもの。たとえば
hiroyadoraemon 2010/07/30
Suffix Array

algorithm

compression

suffixarray
リンク
Compressed Suffix Arrays
Copyright © 2004-2008, Yuta Mori, All Rights Reserved. yiv01157 at nifty dot com http://homepage3.nifty.com/wpage/
hiroyadoraemon 2010/06/17
SuffixArray
リンク
white page
blog めったに更新しないブログ。Suffix Arrayの構築法やデータ圧縮についてちょこっと書いてます。 memo 旧メモ。blogに全て移したので、そのうち消す予定です。 junk 過去に書いたソースコートやテスト中のものが放り込んであります。 software 自作のプログラム・ライブラリ置き場です。 links of data compression データ圧縮や接尾辞配列などに関するリンク集です。 my bookmarks お気に入りのサイト集です。
hiroyadoraemon 2010/01/13
suffixarray

algorithm
リンク
横着プログラミング第9回: sary: Suffix Array のライブラリとツール
最終更新日: 2002-12-18 (公開日: 2002-12-18) Unix Magazine 誌に 2002年1月号から 2003年2月号にかけて連載していた記事の元の原稿です。私にフローチャートだけを見せて、テーブルは見せないとしたら、私はずっと煙に巻かれたままになるだろう。逆にテーブルが見せてもらえるなら、フローチャートはたいてい必要なくなる。 -- Frederick P. Brooks Jr. *1 プログラミングにおいてはデータ構造が重要であり、正しいデータ構造を選択すればアルゴリズムは自明なものとなる、という主張がある。Rob Pike*2 の "Notes on Programming in C" *3 によると、現実的なプログラムに必要なデータ構造は次の 4つであるという。配列 (array) 連結リスト (linked list) ハッシュテーブル
hiroyadoraemon 2010/01/06
suffixarray

algorithm

sary
リンク
おひろめ会資料：Suffix Array検証｜社内NEET宣言
社内NEET宣言文学部出身なのにIT企業で研究開発をすることになった社員のブログです。エンジニア/ニートおひろめ会資料：Suffix Array検証レポート・実験最近ブログがご無沙汰になっていますが、、、 WebDB Forum も終わったので、徐々に更新をしていきたいと思います。現在は、データ解析に一区切りをつけて、 Suffix Arrayを用いた検索エンジンの検証をひと月ほど行っています。調査内容についてですが、 12月半ばに実施予定のラボ報告会（おひろめ会）用に資料を書いていて、内容的にも公開可能なものなので、以下資料を公開します。 Suffix Array 検証その後View more presentations from moaikids. 今のところ、ナイーブなSuffix Array実装までは行えていて、パフォーマンス測定の結果的にも、検索速度にポテンシャルを感じ
hiroyadoraemon 2010/01/01
suffixarray
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
hiroyadoraemon 2009/12/05
bwt

suffixarray

algorithm
リンク
Burrows Wheeler Transform と Suffix Array - naoyaのはてなダイアリー
,. -‐'''''""¨¨¨ヽ (.＿＿_,,,... -ｧァﾌ|　　　　　　　　　　あ…ありのまま今日　起こった事を話すぜ！ |i i|　　 }!　}} /／| |l､{　　j}　/,,ｨ//｜　　　　　　　『BWT について調べていたら Suffix Array のライブラリができていた』 i|:!ヾ､_ﾉ／ u {:}//ﾍ |ﾘ u' }　 ,ﾉ　_,!V,ﾊ | ／´fト､_{ﾙ{,ィ'ｅﾗ　, ﾀ人　　　　　　　　な…　何を言ってるのか　わからねーと思うが /' 　ヾ|宀| {´,)⌒`/ |<ヽﾄiゝ　　　　　　　　おれも何をされたのかわからなかった… ,ﾞ　／ )ヽ iLﾚ　u' |　| ヾｌﾄﾊ〉 |／_／　ﾊ !ニ⊇　'／:} 　V:::::ヽ　　　　　　　　頭がどうにかなりそうだった… /／二二二7'T'' ／u'　__ /:::::::/｀ヽ /'
hiroyadoraemon 2009/11/05
algorithm

suffixarray

bwt
リンク
BlockSorting
BlockSortingは、今までのデータ圧縮で有名な方法であるLZ法とは全く違う、ユニークな操作を用いてデータを圧縮する方法であり、M.BurrowsさんとD.J.Wheelerさんが作者なので「BWTransf orm」ともいいます。このアルゴリズムは簡単に言ってしまえば、「データをぐるぐる回してソートして出力」というものです。簡単すぎるかもしまいませんが、本当にそうなんです。ちなみに、このBlockSorting、単体では全く圧縮しません。ただ可逆な形にデータを変換するというものです。しかし、BlockSorting後のデータは非常に圧縮されやすい状態になります。例えると、色々な形をしたスポンジ（データ）が箱にごちゃごちゃに入って山積みになっているとします。　これをそのまま上からギューっと押しつぶすのがLZ法やHuffman法なのに対し、一度、形が似たも
hiroyadoraemon 2009/10/30
algorithm

blocksorting

suffixarray
リンク
無題ドキュメント
次に、各Suffixにおける大小関係を定義します。この大小関係は辞書式順序です。辞書式順序とは、辞書に並んでいる通りの順番であり、簡単に言えば、 (1)両Suffixを頭（左）から順番に一文字ずつ比較していき、初めて違うところで、文字の大小関係で比較を行う (2)もし、二つを比較していき、片方のSuffixが終わりに達してしまったら、そちらの方が小さいと定義する。例えば、(1)は上の例でいえば、 S5 と S7を比較するとすると S5 adabra S7 abra 一文字目は両方ともaで、同じなので二文字目（赤い部分）を比較すると、dとbであり、文字の大小関係で d > b なので S7 < S5 という大小関係がつきます。 (2)については、S0 と S7を比較すると S0 abracadabra S7 abra で、頭から4文字は同じであり、S7はデータの最後に達しました。この
hiroyadoraemon 2009/10/29
algorithm

suffixarray
リンク
[を] Suffix Array の解説文書のリンク集
Suffix Array の解説文書のリンク集 2006-04-10-3 [Algorithm] Suffix Array について解説している日本語による文書のうち、 Webで閲覧できるもののリンク集。随時更新予定。 - 用語解説: Suffix Array (PDF) via http://ta2o.net/tools/sufary/ - Suffix Array の解説 in D論 (PDF) via http://ta2o.net/tools/sufary/ - 横着プログラミング第9回: sary: Suffix Array のライブラリとツール http://0xcc.net/unimag/9/ - Suffix Arrayの簡単な説明 http://sary.sourceforge.net/docs/suffix-array.html - Suffix Trees and
hiroyadoraemon 2009/10/29
algorithm

suffixarray
リンク
接尾辞配列 - Wikipedia
元の文字列があれば、接尾辞の開始位置を指定することですべての接尾辞を余すことなく得ることができる。この接尾辞を辞書順に並べたときの開始位置の配列が接尾辞配列となる。 "abracadabra"に対する接尾辞配列は、表のように、(11, 8, 1, 4, 6, 9, 2, 5, 7, 10, 3) となる。接尾辞 "a" の開始位置は11で、接尾辞 "abra" の開始位置は8だからである。 "abracadabra"に対して、12番目の接尾辞として空文字を考えることができる。しかし、これは常に先頭に配置されることになるので特に情報を持たないので、省略しても問題ない。構築法[編集] 接尾辞配列を構築する最も容易な方法は、効率的な比較ソートを利用することである。この場合、回の接尾辞の比較が必要になるが、接尾辞の比較はの時間が必要となる。従って全体的な計算時間はとなる。より精巧なアルゴリズ
hiroyadoraemon 2009/10/28
algorithm

suffixarray
リンク
1