以下で紹介されているSCDVという手法を使って自然言語処理をしていたとき、ちょっと問題に遭遇したのでそれのメモです。 文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017) 問題 SCDV後の単語ベクトルのうち、以下のような単語がすべて0ベクトルになっていた。(単語は例です。) iPhone 雨 キャッシュ・フロー 調査 SCDVはword2vecで作成した単語の分散表現に対し、その分散表現をGMMでクラスタリングしたときの各単語が各クラスに属する確率とIDF値を用いて、より高次元の分散表現に変換することで意味をより細かく取得できる手法なのですが、上記で挙げたような単語はword2vecで作成した分散表現の際は0ベクトルではありませんでした。 なので、word2vecからSCDVで高次元の分散表現を構築する際に0ベクトルになってしまっ

