■ はじめに こんにちは。データシステム部 推薦基盤チームのかみけん(上國料)です。よろしくお願いします。 いきなり本題に入りますが、データ分析において、高次元データの可視化やクラスタリングは重要なステップだと思っています。ただ、データ分析をする上で、ラベルがそもそも存在しない(or 大量に存在する)データを扱うことが稀にあります。 今回は、元データにラベルが存在しない、すなわち教師なし学習前提で、次元削減手法である UMAP (Uniform Manifold Approximation and Projection) のハイパーパラメータを最適化する方法を紹介します。どこかで参考になれば幸いです。 ■ 手法サマリ ラベルのないデータに対して、次元削減手法 UMAP のパラメータを最適化します。パラメータ最適化には Optuna を使用し、次元削減後の潜在空間をシルエットスコア で評価・
