原文 ベクトル空間における言語特徴量の効率的推定(Efficient Estimation of Word Representations in Vector Space) Tomas Mikolov (2013) 1. 要約 「単語ベクトル(word vectors)」の効率的な学習方法の提示。Word2Vecというモデルに接続する考え方。 規模にして10億語超、語彙では100万語超の処理を試みる。 比較対象: 過去の言語処理規模では、1000万語レベルの処理が限界だった。 学習テクニックとして広く使われてきた手法は、次の3つである。 ①NNLM(Neural Network Language Model) 順伝播型NNを用いて、単語の特徴量を抽出する。教師データには、品詞タグ付けされたコーパスを用いる。 ②LSA(Latent Semantic Analysis) 精度はNNに劣る。教
