sh19910711のブックマーク - はてなブックマーク

ガウス埋め込みによる「意味の広がり」を捉える単語埋め込み - Qiita
本記事はQiitaの機械学習の数理 Advent Calendar 2018の8日目の記事です．単語の「意味の広がり」を捉えられる単語埋め込み手法であるガウス埋め込みについて紹介します．だいたいこの論文の説明です．はじめにもはやNLPの必須ツールとなったword2vec，というかSkipgramに代表される単語分散表現ですが，単語の意味のモデル化という意味ではいくつかの問題点もあります．そのうちの一つが，「1つの単語に1つのベクトルを割り当てる」点推定になっており「単語の意味の広がりを捉えられない」という点です．例えば下図に示すように， Bach $\in$ composer $\in$ man manは非常に広い意味をもつ composerはもう少し狭い Bachは人名なのでよりspecificな意味といった単語同士の意味の重なりや包含関係をembeddingの空間上で分析
sh19910711 2024/02/12
"word2vec: 意味のモデル化という意味ではいくつかの問題点 + 点推定になっており「単語の意味の広がりを捉えられない」 / 意味の重なりや包含関係をembeddingの空間上で分析したい" / 2018

*algorithm

NLP
リンク
t-SNEによるイケてる次元圧縮&可視化 - Qiita
こんにちは，クラスタリング&可視化おじさんです．本記事は「機械学習と数学」Advent Calendar14日目です． (ちなみにAdvent Calendar初投稿です．よろしくお願いします) はじめにデータ分析とか機械学習やられてる方は高次元データの次元削減と可視化よくやりますよね．この分野の代表選手といえばPCA(主成分分析)とかMDS(多次元尺度構成法)ですが，これらの線形変換系手法には以下の問題があります．高次元空間上で非線形構造を持っているデータに対しては適切な低次元表現が得られない「類似するものを近くに配置する」ことよりも「類似しないものを遠くに配置する」ことを優先するようアルゴリズムが働く 1.に関して，よく例に出されるのがSwiss roll dataset(下図)のようなヤツですね． PCAはデータが多次元正規分布に従うことを仮定しているので，その仮定から
sh19910711 2022/04/23
"次元削減: PCAとかMDS > 「類似するものを近くに配置する」ことよりも「類似しないものを遠くに配置する」ことを優先 / t-SNE: 2or3次元への圧縮のみ + 裾野の広い(=端の確率値が高い)t-分布を用いたことの副作用"

*algorithm

機械学習
リンク
t-SNE-CUDAで大規模データの超速次元圧縮&可視化 - Qiita
概要以前t-SNEの説明記事を書きましたが，t-SNE-CUDAなるパッケージが出ていました．名前の通りt-SNEをCUDAで高速化するものですが，HPML2018(High Performance Machine Learning 2018 Workshop)で発表されました．論文スライド単にGPU実装がんばりました，だけではなくアルゴリズム上の工夫もしていて， SGDの更新式を物理の知見を用いてAttractive ForcesとRepulsive Forcesの項に分けた上で，以下の各ステップの計算をCUDAで高速化しているようです． $P_{ij}$の計算 $P_{ij}$と$Q_{ij}$の積 Attractive forcesの計算 Repulsive forcesにおけるBarnes-Hut treeの構築 Replusive forcesのtree走査低次元空
sh19910711 2022/04/18
2019 / "t-SNE-CUDA: HPML 2018で発表 / SGDの更新式を物理の知見を用いてAttractive ForcesとRepulsive Forcesの項に分けた上で，以下の各ステップの計算をCUDAで高速化 / 低次元空間の特性やクラスタの見やすさを考えるとUMAPを使う方が"

*algorithm

機械学習
リンク
1