TL;DR chiVe (チャイブ): 日本語単語分散表現 形態素解析器「Sudachi」 と 258億語規模コーパス「NWJC」 Apache-2.0, 商用利用可 gensimやMagnitude形式でもデータ公開 Magnitude: 分散表現を使うPythonライブラリ 「gensim」のシンプルで速い代替ライブラリ 未知語のベクトル作成 HTTP上でのリモートロードやストリーミング from pymagnitude import Magnitude, MagnitudeUtils # ダウンロード # デフォルトのダウンロード先: `~/.magnitude/` vectors = Magnitude(MagnitudeUtils.download_model("chive-1.1-mc90-aunit", remote_path="https://sudachi.s3-ap-n