教師なし分類の代表的な手法として、k-meansがあります。 k-meansは分類自体は自動で出来るんですが、その際のクラス数はマニュアルで設定する必要があります。 そのため、どう分類されるかはここで指定するクラス数に強く依存するわけです。 この辺は人間の勘でやるのも構いませんが、この辺りまで自動でなんとかしたいと思うのが人の性かなと思います。(ほんとか?) 今回はk-meansのクラス数を自動で推定する手法を調べてみたのでそのメモです。 まずは調べる やってみる 普通のk-means X-means G-means 使ったコード 参考文献 感想 まずは調べる ちょっと調べてみるとこんな感じの記事が見つかりました。 qiita.com qiita.com 何やらX-meansやらG-meansなるものがあるようで、この辺を使うといい感じにクラスタ数を設定できるようです。 中の理屈については
クラスタリング、クラスター分析と言えば、k-meansが有名です。しかし、予めクラス(分類)数を指定する必要があります。この対策として、分類数を自動で決定するアルゴリズムはいくつか存在していて、「x-means」,「g-means」,「Star Clustering」などがあります。 本記事では、「x-means」と「g-means」の雛形コードと実行結果の比較例を載せました。この2つは、pyclusteringをインストールすることで使用できます。 ■インストール方法 pipの場合 pip3 install pyclustering Anaconda環境下の場合 conda install -c conda-forge pyclustering ■分析に使用した例題データ scikit-learnに同梱されているワインデータセットを用いました。本来は、機械学習の分類用に用意されたデータセ
この記事はfreee データに関わる人たち Advent Calendar 2019 6日目のエントリーです。 前日の夜中に書きはじめてヒーヒー言いながら書いています。 はじめに PyClusteringというライブラリを皆さんご存知でしょうか。PyClusteringはPythonとC++から利用できるクラスタリングに特化したライブラリです。そんなPyClustering v0.9.2にG-meansというアルゴリズムが新しく実装されました。G-meansという名前を初めてみた + 日本語の記事が見当たらなかったので調べてまとめてみました。 アルゴリズム自体はシンプルなので論文を直接読んで頂くのが一番分かりやすいかも知れません。 G-meansはK-meansを拡張したものでK-meansのパラメータであったクラスタ数を自動で決定してくれるアルゴリズムです。 似たような方法にX-mean
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く