クラスタリング、クラスター分析と言えば、k-meansが有名です。しかし、予めクラス(分類)数を指定する必要があります。この対策として、分類数を自動で決定するアルゴリズムはいくつか存在していて、「x-means」,「g-means」,「Star Clustering」などがあります。 本記事では、「x-means」と「g-means」の雛形コードと実行結果の比較例を載せました。この2つは、pyclusteringをインストールすることで使用できます。 ■インストール方法 pipの場合 pip3 install pyclustering Anaconda環境下の場合 conda install -c conda-forge pyclustering ■分析に使用した例題データ scikit-learnに同梱されているワインデータセットを用いました。本来は、機械学習の分類用に用意されたデータセ
この記事はfreee データに関わる人たち Advent Calendar 2019 6日目のエントリーです。 前日の夜中に書きはじめてヒーヒー言いながら書いています。 はじめに PyClusteringというライブラリを皆さんご存知でしょうか。PyClusteringはPythonとC++から利用できるクラスタリングに特化したライブラリです。そんなPyClustering v0.9.2にG-meansというアルゴリズムが新しく実装されました。G-meansという名前を初めてみた + 日本語の記事が見当たらなかったので調べてまとめてみました。 アルゴリズム自体はシンプルなので論文を直接読んで頂くのが一番分かりやすいかも知れません。 G-meansはK-meansを拡張したものでK-meansのパラメータであったクラスタ数を自動で決定してくれるアルゴリズムです。 似たような方法にX-mean
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く