bayonはフォーマットに沿った入力データを高速にクラスタリングするソフトウェアです。 テキストコンテンツは世の中にあふれています。そうしたコンテンツを収集するのは容易ですが、次はうまく分類分けして表示しなければなりません。そこで使えそうなのがbayonです。高速なクラスタリングを実現するソフトウェアです。 インストールします。configure、make、make installで完了です。 ヘルプです。 サンプルのファイルです。左がIDで、それに続く右側が属性となっています。 実行しました。100分割なので全てばらばらに検出されています。 例えば上記例では2つのグループにクラスタリングされています。 3つの場合のクラスタリングです。 中心ベクトルを求める方法です。 bayonは特徴的なキーを自動判別したり、クラスタリングの手法を変更することもできます。デフォルトではRepeated B