はじめに カブクで機械学習エンジニアをしている大串正矢です。今回は異常検知の基礎について書きます。 背景 異常検知の手法は多種多様に存在していますがウェブ上にまとまった情報が日本語でないため記述することにしました。ただ全ての内容をこの記事で記述すると長くなるため今回は基礎的な内容にフォーカスして記述します。この記事の内容をベースに他の異常検知に関する記事を記述する予定です。 異常検知の基本的なアプローチ 下記の3つのフェーズで構成されています。 分布推定 モデルを定義し、正常なデータから学習します。 異常度の定義 上記のモデルからのずれの度合いである異常度を定義します。 閾値の設定 異常度がある値より大きければ異常と判定できるような閾値を設定します。 ここからは簡単なケースとして正規分布を想定して書いていきます。 分布推定 正規分布の数式は下記のようになります。 \begin{align}