まず最初に、word2vec の仕様 を ① Mikolov 氏ほか共著論文 と ② O'Reilly本 から適宜 転載しつつ確認 Mikolov 氏 他 word2vec 論文 を読み解くと、、、以下の知見が掲載されている Mikolov ほか共著 ( 論文 )"Efficient Estimation of Word Representation in Vector Space" ① コーパスの単語数が多けれは多いほど、モデルの次元数が大きければ大きいほど、意味演算の正確性の精度は高まる。(モデルの次元数が大きい場合は、コーパスサイズも相応にないと精度は落ちる) ② 文法的 ( Syntactic )には、 NNLM が、意味的 ( Semantic ) には Skip-gram が精度が高い ③ コーパスのサイズが2倍になれば、モデルの次元数も2倍にするべきである ( 以下、Miko
![word2vec ~ モデル仕様の詳細調査 と モデルのパラメータ設定ケース別 意味「類似度」計算結果の比較・考察(①モデル次元数 ②window幅を変えて挙動を確認)~ コーパス事例: 和文 学術論文 (西田幾多郎)『善の研究』 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/cbc1f0f7d57c0fbd7dc87d81bc07542c36a83eff/height=288;version=1;width=512/https%3A%2F%2Fcdn.qiita.com%2Fassets%2Fqiita-fb-2887e7b4aad86fd8c25cea84846f2236.png)