はじめに 皆さんは R 好きですか?好きですよね。勉強会もたくさんありますもんね。 僕は嫌いです。遅いので。でも、書き方の工夫でなんとかなることもあります。 僕が研究室でやってることは、表向き検索ということになってるのですが、 やってることは、次元削減とかクラスタリングとか、そのあたりです。 データがなす空間を、解析するという点では、検索も機械学習も一緒ですね。 この、データが空間上でどういった感じになってるのか、の手がかりとなるモノに、 全データ点同士の距離があります。これを行列で表したものが、距離行列です。 距離には、だいたい、まずは、ユークリッド距離を試します。 R で距離行列を求める場合 dist 関数を使いますが、 ユークリッド距離だけに絞れば、自作した関数の方が速くなります。 2点間のユークリッド距離 いま、二次元のデータが、二点あるとします。 ちなみに、データ点