こんにちは,クラスタリング&可視化おじさんです. 本記事は「機械学習と数学」Advent Calendar14日目です. (ちなみにAdvent Calendar初投稿です.よろしくお願いします) はじめに データ分析とか機械学習やられてる方は高次元データの次元削減と可視化よくやりますよね. この分野の代表選手といえばPCA(主成分分析)とかMDS(多次元尺度構成法)ですが, これらの線形変換系手法には以下の問題があります. 高次元空間上で非線形構造を持っているデータに対しては適切な低次元表現が得られない 「類似するものを近くに配置する」ことよりも「類似しないものを遠くに配置する」ことを優先するようアルゴリズムが働く 1.に関して,よく例に出されるのがSwiss roll dataset(下図)のようなヤツですね. PCAはデータが多次元正規分布に従うことを仮定しているので, その仮定から
![t-SNEによるイケてる次元圧縮&可視化 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/4be1c5ea6a09f929457cc3f01933bc8fcd12b06b/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9dC1TTkUlRTMlODElQUIlRTMlODIlODglRTMlODIlOEIlRTMlODIlQTQlRTMlODIlQjElRTMlODElQTYlRTMlODIlOEIlRTYlQUMlQTElRTUlODUlODMlRTUlOUMlQTclRTclQjglQUUlMjYlRTUlOEYlQUYlRTglQTYlOTYlRTUlOEMlOTYmdHh0LWFsaWduPWxlZnQlMkN0b3AmdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZzPWY0YzM4MTVkYmQzOTAwODJlYTM2YTlkYmViYTE1ZGUw%26mark-x%3D120%26mark-y%3D96%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDBzdGZhdGUmdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTg0YjRhNmE4MWZjNGRjMWU4ODBkYzQ4ODBjMWEzZDVl%26blend-x%3D120%26blend-y%3D500%26blend-mode%3Dnormal%26s%3D2d5ad7c7a0de2852fd573d5ed372f8f4)