タグ

word2vecとCBOWに関するni66lingのブックマーク (1)

  • 【Skip-gram / CBOW】Word2vec を使ってみた – FiS Project

    CBOW (Continuous Bag-of-Words) は単語周辺の文脈から中心の単語を推定します。 着目している単語の前後計 n 単語を文脈として入力して, 着目している単語 (Wt) を推定します。Skip-gram と比較し高速です。 Skip-gram は CBOW とは逆で, 中心の単語からその文脈を構成する単語を推定します。単語と文脈をデータからランダムに選択することで容易に負例を生成でき, 正例と負例を分類する分類器を学習させます。この時に隠れ層の入力データの特徴を低次元で表現したベクトルを取り出します。イメージとしては主成分分析が近いと思います。 真面目に行列計算すると膨大な計算量になるので, 巨大な行列の一部を取り出して近似計算する低ランク近似というテクニックを使っています。CBOW と比較し低頻度語の予測に優れています。 word2vecを使ってみた ビルドしてみ

  • 1