[B! クラスタリング] ymym3412のブックマーク

ymym3412 id:ymym3412

クラスタリングに関するymym3412のブックマーク (2)

EMアルゴリズム徹底解説 - Qiita
本ブログは、混合ガウス分布を題材に、EMアルゴリズムという機械学習界隈では有名なアルゴリズムを丁寧に解説することを目的として書いています。また、この記事は、「数学とコンピュータ Advent Calendar 2017」の24日目の記事です。そして長いです。 1. はじめに観測した確率変数 $X$ をよく表現する、モデル $p(x|\theta)$ のパラメータを求めることが確率分布の推定ではよく行われます。つまり最尤法ですね。より複雑な分布になるとその分布の構造に潜在変数(Latent Variable) $Z$ があると仮定してモデル化を行うと、シンプルな組み合わせで $X$ の分布を表現できることがあります。今回扱う混合ガウス分布もその一つです。のちに説明しますが、データセットの種別を完全データ集合と不完全データ集合に分けた場合、不完全データ集合に属するようなデータセットはデ
ymym3412 2017/12/24
アルゴリズム

クラスタリング
リンク
階層的クラスタリングの併合方法を図で確認 - Qiita
ずいぶんニッチな内容になってしまいますが、案外似たような内容がなかったのでメモしておきます。階層的クラスタリングとは詳しい内容は他記事に任せますが…、図のようにデータ同士の近さを可視化してどのあたりに似たデータが固まっているかを確認する手法です。ただし、神嶌先生の解説ページにクラスタリングは探索的 (exploratory) なデータ解析手法であって，分割は必ず何らかの主観や視点に基づいているということです．よって，クラスタリングした結果は，データの要約などの知見を得るために用い，客観的な証拠として用いてはなりません．とあるように、どのような主観や視点でデータを分割しているのかを正しく理解して知見化していくことが大切です。手法選択について特に注意すべきパラメータとして距離の定義と併合方法があります。距離はデータ同士の差をどう定義するか、併合方法はクラスタとクラスタの近さをど
ymym3412 2017/11/22
クラスタリング

可視化
リンク
1