Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more
Suppose you have a very large dataset - far too large to hold in memory - with duplicate entries. You want to know how many duplicate entries, but your data isn't sorted, and it's big enough that sorting and counting is impractical. How do you estimate how many unique entries the dataset contains? It's easy to see how this could be useful in many applications, such as query planning in a database:
検索 [1] ダブル配列とdartsの概略 [NEW 2011.2.14] pdf版(約61 K byte) トライを効率よく検索するダブル配列とそれを実装したdartsプログラムの概説です。 dartsは、奈良先端大学で作成されたプログラムです。 → http://chasen.org/~taku/software/darts/ [2] NDBMとSDBMの仕組み (pdf版)[2005.6.24] DBライブラリであるNDBMとSDBMのソースコードの概説です。 コメントつきndbmソース ndbm.c, ndbm.h 自然言語処理 [1] 茶筌 ソースコードの概略 (html)[2001.6] pdf版(約134 K byte) 茶筌は、奈良先端大学松本研究室で作成された形態素解析システムです。 → http://chasen.naist.jp/hiki/ChaSen/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く