Introduced in 2003 by Cormode and Muthukrishnan, the Count-Min sketch is a popular and simple algorithm for summarizing 1 data streams. In...

2012-02-17 Count-Min Sketch のライブラリを公開しました written by Susumu Yata. はじめに 先日 groonga プロジェクトでの利用を目的として開発しているライブラリ Madoka を公開しました.Madoka は Count-Min Sketch という手法をライブラリ化したものであり,文書集合に含まれるキーワードの頻度を求める,クエリの頻度を求める,などの用途に使うことができます. s-yata/madoka - GitHub Documentation - Madoka ライブラリの使い方についてはドキュメントに書いてあるので,こちらは Count-Min Sketch と Madoka の特徴をまとめた内容になっています. Count-Min Sketch 頻度を求めることが目的であれば,ハッシュ表による連想配列を使うのが,おそら
Statistical analysis and mining of huge multi-terabyte data sets is a common task nowadays, especially in the areas like web analytics and Internet advertising. Analysis of such large data sets often requires powerful distributed data stores like Hadoop and heavy data processing with techniques like MapReduce. This approach often leads to heavyweight high-latency analytical processes and poor appl
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く