お仕事でSudachiを使って形態素解析を行っているのですが、それと互換した単語埋め込みモデルが必要になりました。 Sudachiの開発元であるワークスアプリケーションズさんから、Sudachiで分かち書き・学習したWord2Vecモデルが提供されています。 コーパスとして国語研日本語ウェブコーパス (nwjc)が使われてます gensim以外にも、fastTextで学習したモデルも近々公開予定とのことです (2019/6/1 現在) 大規模コーパスと複数粒度分割による日本語単語分散表現 モデルのダウンロード 上のURLから学習済みモデルをダウンロードします。 20190314のバージョンで、語数3644628、次元数300となってます 圧縮ファイルで5GB、解凍後で12GBくらいありますので注意してください $ wget https://object-storage.tyo2.conoh