多変量解析の1つで、対象物(データの集まり)をサンプルの類似度(距離)によって、いくつかのグループ(クラスター)に分けるデータ分析/分類手法、あるいはそのアルゴリズムの総称。特にデータを外的基準なしに自動的、定量的に分類する数学的方法をいう。 具体的な手順としては、まず類似性の定義を行ってサンプルの類似度を数値化する。そこからサンプルそれぞれの距離を算出し、それに応じてサンプル同士をまとめ(クラスタリング)、クラスター間の距離も計算する。距離の測定方法としては、ユークリッド距離、ユークリッド平方距離、標準化ユークリッド距離、ミンコフスキー距離、マハラノビスの距離などがある。 クラスタリング手法(アルゴリズム)も、分析や用途に応じてさまざまなものが提唱されており、その分類もいろいろあるが階層的と非階層的で説明することが多い。階層的方法には、最短距離法、最長距離法、メジアン法、重心法、群平均法
