時系列ストリームデータにおいて出現頻度が急激に増加している時間帯を検出する方法の一つである、 Kleinbergの「列挙型 (enumerating)」バースト検知アルゴリズムを紹介します。 Jon Kleinberg による論文 に、文書ストリームデータが「バースト状態」であるとは、 (文書データのある特定トピックなどの) 出現頻度が、急激に上昇する状態 をいう、と述べられています。 1、 そこでは、 「ドキュメントの到着時間間隔」と、 「全ドキュメントと関連するドキュメントとの比」 の二つに着目してバースト状態が論ぜられ、 前者に対する考察が「連続型」に、後者に対する考察が「列挙型」に、それぞれ繋がっていきます。 以下、或るマイクロブログサービスから取り出したデータを用いて、 キーワードとして「松井」を含むドキュメントのバースト検知を考えてみます。 列挙型の説明の前に、 連続型 を復習