mahler-5のブックマーク / 2018年2月5日

Rでクラスター分析〜距離行列の生成からクラスタリングまで – marketechlabo

クラスター分析は距離行列の生成（類似度行列ではない！）クラスタリングの実行という流れになる。それぞれのステップで、採用する距離の種類クラスタリングの方法がチューニング変数となる。この順に手順を見ていく。行数、列数の多いビッグデータ向きのデータ形式であるMatrixパッケージに対応した距離行列についても説明する。距離行列を生成する類似度行列ではなく距離行列を作る。similarityではなくdistanceを作る。直感的にはデータから距離の指標（どれだけ離れているか）ではなく類似度（どれだけ近いか）の指標を抽出し、そこからクラスタリングしたいケースが多いのだが、あくまで類似度指標に基づいた距離行列を生成するのである。通常のdist関数では対応する距離の種類が少ないのでproxyパッケージを使う。距離行列を生成するメソッドはdist(data, method="距離

はてなブックマーク

タグ

2018年2月5日のブックマーク (2件)

Rでクラスター分析〜距離行列の生成からクラスタリングまで – marketechlabo

Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO

お知らせ

月間はてなブックマーク数ランキング（2025年3月）

今週のはてなブックマーク数ランキング（2025年3月第5週）

今週のはてなブックマーク数ランキング（2025年3月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス