タグ

anomalydetectionに関するteddy-gのブックマーク (4)

  • 統計的変化点検出の手法 - Qiita

    ログデータの異常検知を行う必要が発生したので、変化点検出の統計的な手法をざっくりと調べてみた。 偏差の累積和による方法 各データ点に対して標平均との偏差の累積和を求め、これが最も大きくなる点を変化点とする方法。 手順は下記の通り。 系列全体の平均値(標平均)を計算して、各点について平均値との差を求める 平均値との差の累積和を計算し、絶対値が最大になる点を変化点とする。 変化点によって区切られた各区間について、1,2を再帰的に繰り返す。 平均値でなく分散を使うバージョンもある。 特徴 1次元のデータ列に適用可能。 変化していない部分のデータは同一の確率分布に従い、かつ観測値はすべて互いに独立であることを仮定。 上記を満たしていれば、データが特定の分布に従うことを仮定しない。 もちろんデータの独立性が仮定できなければ使えないので、ログのような時間相関のありがちなデータにおいて使える場面は限

    統計的変化点検出の手法 - Qiita
    teddy-g
    teddy-g 2018/02/18
    統計的に変化点検知≒異常検知をする方法の説明。ARモデルを調べてたら行き着いた。
  • 判別分析(マハラノビス)

    トップページ→研究分野と周辺→システムの評価→ 例えば二次元で考えると、x軸y軸平面に多数の点が散らばり、これが幾つかのグループに分かれているとする。判別分析では、新たな点が与えられたとき、どのグループに属するかを判別する。 判別分析には、幾つかの方法があり、「サポートベクターマシン(SVM)」のように区分する線を引く方法もある。 ここでは、マハラノビス距離を用いた判別分析について述べる。 マハラノビス距離 最も一般的に使われる距離はユークリッド距離である。一次元(例えばx軸上)では、x座標の差がそのまま距離となる。 例えば二つのグループがあるとき、新たな点が与えられてどちらのグループに属するかを判別する際、新たな点のx座標と双方のグループの中心とのユークリッド距離を測り、短い方に属すると考える事も出来る。 しかし、この方法では、以下のような場合に問題となる。 青い点と赤い点の二つのグルー

    teddy-g
    teddy-g 2017/01/11
    [unsupervisedlearning]マハラノビス距離に関し、2変数の場合が丁寧に説明してある。
  • 【統計学】正規分布とカイ二乗分布の関係を可視化してみる。 - Qiita

    統計学、可視化してみるシリーズの続編です。 カイ二乗分布は、ABテストのカイ二乗検定等でよく使う分布です。$\chi^2$と書いてカイ二乗です。グラフにすると下記のような形で、自由度と呼ばれるkの値に応じて形が変化します。 (グラフ描画のコードはこちら) 今回もWikipedia先生にカイ二乗分布の定義を聞いてみると、 独立に標準正規分布に従う $k$ 個の確率変数 $X_1, ..., X_k$ をとる。 このとき、統計量$$Z = \sum_{i = 1}^k X_i^2$$の従う分布のことを自由度 $k$ のカイ二乗分布と呼ぶ。 という返事が返ってきました。 うーん、どういうこと?正規分布の密度関数を2乗するの?どうやら違うようです。 まず、「独立に標準正規分布に従う $k$ 個の確率変数」ということなのでまずは標準正規分布に従う乱数のヒストグラムを書いてみようとおもいます。30,0

    【統計学】正規分布とカイ二乗分布の関係を可視化してみる。 - Qiita
    teddy-g
    teddy-g 2017/01/03
    カイ二乗分布と正規分布の関係がビジュアルに理解できる。正規分布の対数から計算されるマハラノビス距離が自由度=次元数のカイ二乗分布に従うのも納得。
  • Twitterがリリースした時系列異常値検出のためのRパッケージ{AnomalyDetection}を試してみる - 渋谷駅前で働くデータサイエンティストのブログ

    もう松の内も明けてしまいましたが、遅ればせながら皆さん明けましておめでとうございます。今年もよろしくお願いいたします。 で、年明け早々にTwitterエンジニアブログに面白いネタが上がっていたのでした。 その名も{AnomalyDetection}というRパッケージ。バルス砲に備えてTwitterが鉄壁の防御を敷いていることは多くの人がご存知だと思いますが(笑)、そういうバルス砲のような異常なアクセスの跳ね上がりだったり、逆にサーバダウンなどでアクセスの異常な落ち込みが出た時にいち早く検出するというのが目的の分析フレームワークのようです。 ということで、話題が新鮮なうちにちょっと試してみようと思います。 どういう仕組みで動いているのか 理論的背景としては、そもそもgeneralized ESD (extremely Studentized deviate) testという外れ値検出の手法が

    Twitterがリリースした時系列異常値検出のためのRパッケージ{AnomalyDetection}を試してみる - 渋谷駅前で働くデータサイエンティストのブログ
    teddy-g
    teddy-g 2016/03/07
    Twitterの異常値検出のやつ。Studentized Deviate Testと名乗ってるくらいなのでスチューデント化残差とかがベースにあるのかしら。
  • 1