2019年9月3日のブックマーク (3件)

  • Sudachiベースの学習済みWord2Vecモデルを使う - け日記

    仕事でSudachiを使って形態素解析を行っているのですが、それと互換した単語埋め込みモデルが必要になりました。 Sudachiの開発元であるワークスアプリケーションズさんから、Sudachiで分かち書き・学習したWord2Vecモデルが提供されています。 コーパスとして国語研日語ウェブコーパス (nwjc)が使われてます gensim以外にも、fastTextで学習したモデルも近々公開予定とのことです (2019/6/1 現在) 大規模コーパスと複数粒度分割による日語単語分散表現 モデルのダウンロード 上のURLから学習済みモデルをダウンロードします。 20190314のバージョンで、語数3644628、次元数300となってます 圧縮ファイルで5GB、解凍後で12GBくらいありますので注意してください $ wget https://object-storage.tyo2.conoh

    Sudachiベースの学習済みWord2Vecモデルを使う - け日記
  • t-SNEによるイケてる次元圧縮&可視化 - Qiita

    こんにちは,クラスタリング&可視化おじさんです. 記事は「機械学習数学」Advent Calendar14日目です. (ちなみにAdvent Calendar初投稿です.よろしくお願いします) はじめに データ分析とか機械学習やられてる方は高次元データの次元削減と可視化よくやりますよね. この分野の代表選手といえばPCA(主成分分析)とかMDS(多次元尺度構成法)ですが, これらの線形変換系手法には以下の問題があります. 高次元空間上で非線形構造を持っているデータに対しては適切な低次元表現が得られない 「類似するものを近くに配置する」ことよりも「類似しないものを遠くに配置する」ことを優先するようアルゴリズムが働く 1.に関して,よく例に出されるのがSwiss roll dataset(下図)のようなヤツですね. PCAはデータが多次元正規分布に従うことを仮定しているので, その仮定から

    t-SNEによるイケてる次元圧縮&可視化 - Qiita
  • 最新の次元圧縮法"UMAP"について - Qiita

    import umap from sklearn.datasets import load_digits from scipy.sparse.csgraph import connected_components import matplotlib.pyplot as plt import matplotlib.cm as cm from sklearn.manifold import TSNE import time def main(): digits = load_digits() digits.target = [float(digits.target[i]) for i in range(len(digits.target))] # UMAP start_time = time.time() embedding = umap.UMAP().fit_transform(digits

    最新の次元圧縮法"UMAP"について - Qiita