キーワードベースのログ監視からの脱却を目指して、ログクラスタリングによるパターン毎の出力頻度ヒートマップ化を試してみるPythonmonitoring機械学習MachineLearningscikit-learn ログの監視といえば、特定のキーワード(例えばErrorという文字列とか、Warningという文字列とか)をベースに監視ツールで検知させるといったことを実施するのが一般的かと思います。 ただ、この対処をするには、どういったログが出力されるのかを予め知っておく必要があり、その条件を決めるのもなかなか大変なのではないでしょうか。 そのようなケースに対し、もう少し分析技術の要素を取り入れて異常な状態に気づけるようにするアプローチを考えてみます。 試したこと 今回試したのは、ログをgensimのdoc2vecでベクトル化し、k-meansでクラスタリング。 さらにそれを時間毎に区分けして各