今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。 github.com アルゴリズムの概要 Pythonでの例 可視化のためのパッケージ読み込み サンプルデータの生成 可視化 K近傍を用いた特徴量抽出 可視化 iris での例 追記20180624 実装の修正 はてなホットエントリ入り アルゴリズムの概要 近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。生成される特徴量は下記のように、観測値と各クラス内の最近傍点との間の距離から計算されます。 とあるクラスに属する訓練データの中の第1近傍までの距離を1つ目の特徴量とする とあるクラスに属する訓練データの中の第2近傍までの距離の和を2つ目の