並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 8 件 / 8件

新着順 人気順

UMAPの検索結果1 - 8 件 / 8件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

UMAPに関するエントリは8件あります。 機械学習研究python などが関連タグです。 人気エントリには 『UMAPの仕組み ── 低次元化の理屈を理解してみる - kntty.hateblo.jp』などがあります。
  • UMAPの仕組み ── 低次元化の理屈を理解してみる - kntty.hateblo.jp

    1. はじめに 非線形の高次元データを低次元化して可視化する道具として、t-SNEに代わってUMAPが主流になってきている。 McInnes L, Healy J, Melville J. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. 2018. UMAPの仕組みを論文から理解するには数学脳不足で挫折していたが、先人達の解説記事のお蔭でやっと直感的な理解できた気がするので、ここにまとめたい。 t-SNEと比べた説明もしているので、t-SNEを把握しているとより理解が早いかも。 あくまで直感的、厳密な説明でないことをご容赦いただきたい。 (2021.3.26追記:コメントで指摘を頂いた、表の間違いを修正。) (2021.7.3追記:近さ曲線の図を修正。) 2. 次元削減の方針 UMAP

      UMAPの仕組み ── 低次元化の理屈を理解してみる - kntty.hateblo.jp
    • 大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた

      テラーノベルで機械学習を中心に担当している川尻です。みなさんも大量のデータを特徴抽出してみたけど、どう使ったらいいかわからないなぁということありますよね。とりあえずどういうデータなのか雰囲気だけでもみるために、簡単な可視化から入るかと思います。以前にもグラフデータの可視化について記事を書きました。 テラーノベルでは小説投稿アプリを作っており、OpenAI Embedding APIを使って全作品の特徴量を出しているデータベースがあります。今回はこのデータを例にして、UMAPという可視化に便利な次元削減手法の使い方を紹介します。 UMAPとは UMAPというのは非線形の次元削減手法で、特徴は次元数やデータ量に対してほとんど一定の計算時間で済むということです。LLMなどの事前学習モデルでよく扱うような1,000次元を超えるような特徴量でも全く問題なく動きます。さらに、Pythonでとても使いや

        大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた
      • 特徴量次元削減手法のt-SNE・UMAPで記事文章ベクトルの可視化をしてみた

        この記事は  GMOアドマーケティングAdvent Calendar 2021   20日目の記事です。 こんにちは、GMOアドマーケティングのM.H.と申します! 文章のカテゴリ分類って難しいですよね。例えばメールの本文からそれがスパムか否かを判定する二値分類ならまだ良いですが、書かれた文章のテーマで分類するなどの話になってくると、その分カテゴリ数が増えて問題の難易度が上がります。 このような問題に対処するために機械学習を使うことはよくあることですが、大きく「教師あり学習」による予測モデルの学習と「教師なし学習」によるクラスタリングの2つのアプローチが使われることが多いように思います。 教師あり学習は素直な方法ですが、学習にあたり文章に対する正解カテゴリのアノテーションを付与する必要があり、入力データの作成にあたってかなり骨の折れる作業を強いられますし、時が経てば対応したいカテゴリが増減

          特徴量次元削減手法のt-SNE・UMAPで記事文章ベクトルの可視化をしてみた
        • t-SNEより強いUMAPを(工学的に)理解したい - Qiita

          あなたはUMAPを知っていますか? わたしは知っています。 聞いたことあるけど知らない人は、この記事でなんとなく理解しましょう。 UMAPとは t-SNEよりも高速・高性能に次元削減・可視化する手法である。よく使われる t-SNE と比較してみよう。以下の図は Fashion MNIST の可視化である。 (Understanding UMAP より) t-SNE に比べて、UMAP ではクラスタが明確に分かれているように見える。また似たカテゴリどうしは近くに、似ていないカテゴリどうしは遠くに配置されている。(Understanding UMAPの解説に可視化の例が豊富にあるので詳しくはそちらを見てほしい。上の3Dの図をぐりぐり回して見れるので) UMAPは埋め込み次元数によらず、実行時間がほとんど一定である。t-SNE のように埋め込み次元が増えても指数関数的に実行時間が増えることはない

            t-SNEより強いUMAPを(工学的に)理解したい - Qiita
          • UMAP 0.4の新機能で遊ぶ(プロット、非ユークリッド空間への埋め込み、逆変換) - Qiita

            UMAPがバージョンアップしてv0.4が公開された。 2020/02/10現在では、pip install --pre umap-learnでバージョンを上げることができる。 疎行列をそのまま入力できたりいろんな機能が追加されているらしいけど、ここではプロット機能、非ユークリッド空間への埋め込み、逆変換を試してみる。 データだけ変えてほぼドキュメントに書いてあるコード例そのままやってるだけなので、それぞれについて詳しくはUMAPドキュメントへ。 データ PARCのレポジトリに置いてあったscRNA-seqのデータセットとアノテーション(Zheng et al., 2017, 10X PBMC)を使って実験する。68,579細胞、事前にPCAで50次元に圧縮済み。気軽にやるにはちょっと大きすぎるデータなので適当に1万細胞くらいに落として使う。

              UMAP 0.4の新機能で遊ぶ(プロット、非ユークリッド空間への埋め込み、逆変換) - Qiita
            • 【次元低減】UMAP, PCA, t-SNE, PCA + UMAP の比較|はやぶさの技術ノート

              というのが気になったので、簡単な比較をしてみました。 実践!PythonでUMAP, PCA, t-SNE, “PCA & UMAP”を比較 以降からUMAP, PCA, t-SNE, “PCA & UMAP”の次元削減手法を実装していきます。 データセット 高次元かつ他の人も入手しやすいデータセットが load_digits(手書き数字の画像)しか思いつかなかったので、それを使います。 データセット可視化 一応データセットを可視化してみます。 def plot_gallery(images, labels, h=8, w=8, n_row=2, n_col=4): """Helper function to plot a gallery of portraits""" plt.figure(figsize=(1.4 * n_col, 2.0 * n_row)) plt.subplots_

                【次元低減】UMAP, PCA, t-SNE, PCA + UMAP の比較|はやぶさの技術ノート
              • UMAP reveals cryptic population structure and phenotype heterogeneity in large genomic cohorts

                Human populations feature both discrete and continuous patterns of variation. Current analysis approaches struggle to jointly identify these patterns because of modelling assumptions, mathematical constraints, or numerical challenges. Here we apply uniform manifold approximation and projection (UMAP), a non-linear dimension reduction tool, to three well-studied genotype datasets and discover overl

                  UMAP reveals cryptic population structure and phenotype heterogeneity in large genomic cohorts
                • RubyでUMAPをできるgemを作った話 - Qiita

                  はじめに Uniform manifold approximation and projection (UMAP) はt-SNEとならんでよく使われる次元圧縮による可視化手法です。 Ruby言語で、機械学習を実行する場合、Rumaleというgemを使うケースが多いと思います。Rumaleにはt-SNEが搭載されていますが、UMAPは搭載されていません。 今回、C++のライブラリであるUmapppのRubyバインディングを作成したので忘れないうちに記録します。 Rubyのライブラリがないときはバインディングを作ろう Ruby言語は、データ解析の分野では比較的マイナーな言語なので、やりたいことを実装したライブラリーが存在しないことがよくあります。そんな時はC言語やRust言語などのライブラリを探してRubyバインディングを作る方法があります。 GitHubの検索では、言語を指定してコードを検索

                    RubyでUMAPをできるgemを作った話 - Qiita
                  1

                  新着記事