今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。 github.com アルゴリズムの概要 Pythonでの例 可視化のためのパッケージ読み込み サンプルデータの生成 可視化 K近傍を用いた特徴量抽出 可視化 iris での例 追記20180624 実装の修正 はてなホットエントリ入り アルゴリズムの概要 近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。生成される特徴量は下記のように、観測値と各クラス内の最近傍点との間の距離から計算されます。 とあるクラスに属する訓練データの中の第1近傍までの距離を1つ目の特徴量とする とあるクラスに属する訓練データの中の第2近傍までの距離の和を2つ目の
![KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装 - u++の備忘録](https://cdn-ak-scissors.b.st-hatena.com/image/square/444839684c6c8e53fb573fabbfbe3acb96f45e8d/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fu%2Fupura%2F20180624%2F20180624233211.png)