以前実装した構築速度重視の動的ダブル配列 (表中 dda) の構築速度を Darts, darts-clone (0.32g beta5, 0.32e5), DASTrie (1.0), doar (0.0.10),簡潔データ構造を利用したトライ (tx 0.16) ,STL コンテナ (std::map, std::tr1::unordered_map) 辺りと比べてみた.キー集合としては,中規模で疎な集合(Wikipedia 英語版記事タイトル)と小規模で密な集合(郵便番号辞書)を用いた. ====================================================================== Wikipedia-en 記事タイトル | Build | Search | Search* | Size [bytes] =================
Highly Scalable BlogArticles on Big Data, NoSQL, and Highly Scalable Software Engineering Some time ago our team had been requested to develop several Java components for structured information retrieval. After the initial research, we concluded that standard approaches like inverted indexes are not well applicable to our problem because of specific business requirements. As a result we faced a ne
Which hashing algorithm is best for uniqueness and speed? Example (good) uses include hash dictionaries. I know there are things like SHA-256 and such, but these algorithms are designed to be secure, which usually means they are slower than algorithms that are less unique. I want a hash algorithm designed to be fast, yet remain fairly unique to avoid collisions.
わけあってハッシュ関数を使ったプログラムを作ることになりました. 入力キーには仕様的に数値的限定をかけて,ゼロから1億程度としました. ならば,20億入る符号付き32bitで十分なはずです. そんなに長くない32bitを出してくれるハッシュ関数として,MurMurがあったので, ベンチマークスーツでその性能を検証してみました. libmemcachedでは,種類としてはFNV,crc32(?),hsieh,murmur,jenkins,md5がサポートされてます. KyotoCabinetではmurmurとfnv. redisでは入力と出力を64bitに拡張したバージョンのmurmurが使われています. phpはクライアントとしてはさすがにデフォルトで沢山サポートされてますね.md?,sha?,ripemd?,whirpool,tiger?,snefru,gost,adler32,crc?
trie4jの最新の実装で、Wikipedia日本語タイトル127万件を格納する速度(build)、全件を照合する速度(contains)、消費サイズ(size)を測ってみました。 クラスbuild(ms)contains(ms)size(MB) java.util.HashSet417453160.4 java.util.TreeSet402261160.2 PatriciaTrie442244104.6 TailPatriciaTrie(SuffixTrieTail)1,220271100.8 TailPatriciaTrie(ConcatTail)51724186.0 MultilayerPatriciaTrie70438691.8 MultilayerPatriciaTrie(packed)2,82286682.9 DoubleArray47110648.5 TailDoubleA
What this page is This page has a number of tables with the results of a test on several well-known hash functions. It accompanies this article. There's a summary at the bottom if you're just interested in seeing which function scores ‘best’ Longer explanation In a set of values that are uniformly distributed over the total output space, we can state that one half of the output values should have
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く