はじめに K-means法やk近傍法等のクラスタリングで用いられる距離については、クラスタリングする対象によっては距離として私達が普段馴染んでいるユークリッド距離以外の距離を用いるとうまくいくケースがあります。(Mahout イン・アクション) 私達が普段馴染んでいるユークリッド距離と書きましたが、このユークリッド距離は2つのベクトル \( \boldsymbol{x}, \boldsymbol{y} \) が与えられたとき、次のように定義されます。 [latex] d_{\text{euclid}}(\boldsymbol{x}, \boldsymbol{y}) = \sqrt{\sum^n_{i = 1} (x_i - y_i)^2} [/latex] この距離という概念は数学的には類似度を測る尺度として抽象化され、2つのベクトルを引数としてとり実数を返却する関数 \( d\) は下記