[B! trie] mogwaingのブックマーク

mogwaing id:mogwaing

trieに関するmogwaingのブックマーク (13)

きまぐれ日記: はてなキーワードを高速に付与
mogwaing 2009/04/07
algorithm

trie

ac

must
リンク
これからのDouble Arrayは動的更新に対応するべき - 射撃しつつ前転改
Double Arrayのコードなんて1年以上いじってないくせになにを言ってるんだこの口はと言う感じですが、Double Arrayを作るのであれば、動的更新に対応させるべきであると、そう思うわけです。 Double Arrayのメリットは Trieである速い (Ternary Search Treeとかと比べると)サイズも小さいという感じだった訳ですが、速度はともかく、サイズではTxが使っているようなLOUDSやLOUDS++などの圧縮しちゃう方式に勝てないので、静的な辞書としては、速度が超重要なところ以外ではLOUDSやLOUDS++を使った辞書を使うのがいいのかなと思う訳です。辞書引き以外の部分がボトルネックであることも多いだろうしね。と言うわけで、簡潔データ構造に比較してDouble Arrayでなにか便利な事ができないかなというと、圧縮をかける方式ではやはり、動的な更新が難
mogwaing 2009/01/15
動的に更新可能なdouble array って今はないんだっけ？

double array

algorithm

trie

data structure
リンク
Double-Array
ダブル配列（ Double-Array ）は，トライ（ Trie ）のデータ構造の一種であり，小さい辞書で高速に検索できるという特長を持っています．実際に，茶筌（ ChaSen ）や和布蕪（ MeCab ）などの形態素解析器で利用されているという実績があります．ダブル配列では，配列を使ってトライを表現します．配列の各要素が BASE, CHECK という二つの整数を持つので，頭文字をとって配列 BC と呼ぶことにします．以降の説明では，配列 BC の要素 x の BASE, CHECK をそれぞれ BC[x].BASE, BC[x].CHECK と記述します．通常，BASE, CHECK は個別の配列として紹介されますが，特に分割して考える必要がないので，このような説明にしました．基本的に，配列 BC の各要素はトライの節と一対一で対応します．そのため，対応する
mogwaing 2008/09/20
algorithm

trie

double array

must
リンク
Double Arrayの非常に効率的な圧縮 - 射撃しつつ前転改
「ダブル配列におけるキャッシュの効率化」という論文を見付けた。FIT2006というフォーラムで発表されたものらしい。これはすごい。目から鱗が落ちた。なんかリンク張って良いものか迷うので、とりあえずはリンクしない。この論文に書いてあることは2つあって、ひとつは配列サイズの削減で、もうひとつはできるだけキャッシュミスを減らすための方法である。配列サイズを削減するための方法がすごい。これまで誰も考え付かなかったのか、それとも考え付いたけどやらなかったのか？まず、checkの要素サイズは1byteで十分である。なぜなら、遷移元のインデックスがわからなくても、遷移に使ったキーの値がわかれば十分なので。これでDoubleArray全体のサイズを5/8に減らせる。また、普通、1GBのDouble Arrayを作成したりすることは無い（せいぜい100MB程度だろう）ので、Baseにも4byteも割り当
mogwaing 2008/09/20
algorithm

trie

double array

to see
リンク
An Implementation of Double-Array Trie
Contents What is Trie? What Does It Take to Implement a Trie? Tripple-Array Trie Double-Array Trie Suffix Compression Key Insertion Key Deletion Double-Array Pool Allocation An Implementation Download Other Implementations References What is Trie? Trie is a kind of digital search tree. (See [Knuth1972] for the detail of digital search tree.) [Fredkin1960] introduced the trie terminology, which is
mogwaing 2008/09/20
trie

double array

algorithm

must
リンク
Tiny Double-Array Library
ダブル配列（ Double-Array ）とは，トライ（ Trie ）のデータ構造の一つで，「小さい辞書で高速な検索」が特長になります．トライを表現したデータ構造ですから，「入力文字列の前方部分列と一致するキーの検索」が可能です．使い方としては，フィルタリングや構文解析，形態素解析などがあります．ライブラリとしては，おそらく Darts が有名です． Darts: Double-ARay Trie System TinyDA は， Darts に影響されて作成したライブラリです．キーを整列して辞書に一括登録するようになっていて，レコードについては，型を特定せず，領域だけを確保するようになっています．そのため，辞書を作成した後でキーを追加することはできませんが，レコードを変更することは可能です．ただし，レコードを変更する場合は，書き込む領域を誤ると辞書が破損し
mogwaing 2008/04/24
trie

double array

darts
リンク
PATRICIA
PATRICIA - Practical Algorithm to Retrieve Information Coded in Alphanumeric, D.R.Morrison (1968). A PATRICIA tree is related to a Trie. The probl em with Tries is that when the set of keys is sparse, i.e. when the actual keys form a small subset of the set of potential keys, as is very often the case, many (most) of the internal nodes in the Trie have only one descendant. This causes the Trie to h
mogwaing 2007/05/09
trie

patricia tree

algorithm
リンク
CodeProject: PATRICIA trie implementation. Free source code and programming help
mogwaing 2007/05/08
patricia

trie

algorithm

c

c++
リンク
Tx: Succinct Trie Data Structure
English 概要 TxはコンパクトなTrieを構築するためのライブラリです．従来のTrieの実装（darts等）に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能です．Trieは文字列からなるキー集合を処理するデータ構造で、キーが辞書に含まれているかのみではなく、キーのPrefixが含まれているかを高速に求めることができます．内部データ構造にはSuccinct Data StructureであるLevel-Order Unary Degree Sequence (LOUDS)を利用しています．ダウンロード Txはフリーソフトウェアです．BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. tx-0.12.tar.gz: HTTP Archives tx-0.11.tar.gz: HTTP tx
mogwaing 2007/03/07
tx

trie

darts
リンク
Patricia-Trie – Wikipedia
mogwaing 2007/01/14
patricia tree

radix tree

trie
リンク
Radix tree - Wikipedia
An example of a radix tree In computer science, a radix tree (also radix trie or compact prefix tree or compressed trie) is a data structure that represents a space-optimized trie (prefix tree) in which each node that is the only child is merged with its parent. The result is that the number of children of every internal node is at most the radix r of the radix tree, where r = 2x for some integer
mogwaing 2007/01/14
radix tree

trie

patricia tree
リンク
サービス終了のお知らせ
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
mogwaing 2007/01/14
trieを二分木で表現

trie

patricia
リンク
横着プログラミング第6回: chatty: 小うるさい端末
最終更新日: 2002-09-18 (公開日: 2002-09-18) Unix Magazine 誌に 2002年1月号から 2003年2月号にかけて連載していた記事の元の原稿です。才気に富んだことは個人が行うのが通例であり、信じがたきバカさ加減は大抵組織に帰されるものである。 -- Jon Bentley *1 役に立たないソフトウェアを作るのが好きだ。面倒な作業を楽にする横着ソフトウェアもいいが、たまには人を呆れさせるくだらないソフトウェアを作るのも楽しい。以前に私が開発した cdbiff*2というソフトウェアは、メールが届くと PC の CD-ROMドライブが開いてメールの到着を通知するという役に立たないものであったが、そのくだらなさが受けて予想外の好評を得た。今回は、そうした役に立たないソフトウェアの 1つである、小うるさい端末 chatty*3 を紹介する。
mogwaing 2006/11/06
trieを二分木で表現

自然言語処理

辞書

trie
リンク
1