この記事はJubatus Advent Calenderの15日目の記事です。 Jubatusには数々の機械学習アルゴリズムが実装されています。 ここではあまり利用されることがないクラスタリング機能に着目して、実装されているアルゴリズムやその特性などをみていきたいと思います。 クラスタリングとは クラスタリングとはデータの集まりを、データ間の類似度などの指標に従って類似したデータのグループ(クラスタ)に分割する機械学習の手法です。 正解データなしに利用することができる教師無学習であり、類似したデータ集合を抽出することができるためSNS上の話題抽出などに利用されます。 Jubatusに実装されているクラスタリングアルゴリズム 2016年12月現在、Jubatusには3つのクラスタリングアルゴリズムが実装されています。 各アルゴリズムを簡単に説明します。 K-Meansアルゴリズム クラスタリ