SCDVのコードはGithubで公開されている(https://github.com/dheeraj7596/SCDV )ほか、ベンチマークとなるデータセットに対する適用方法がそのままあるので、今回のデータセットを使うにあたっては資産をほとんどそのまま使うことができました。python2だった部分をpython3に対応させるのがちょっと手間でしたが... リポジトリ全体はこちら: fufufukakaka/SCDV python3に対応させて20newsgroupを実行しているのがこちら livedoorニュースコーパスで実験しているのがこちら ノートブック、雑にやってしまったので適宜必要なところはコードを貼っていきながら解説します。 まずはword2vecを学習させる+単語ベクトル空間を可視化 まずはword2vecを学習させていきます。livedoorニュースコーパスはテキストファイル