お知らせ (2018/09/24) 最新版の訓練済みベクトルと訓練用のスクリプトは GitHub で公開しています。 概要 「日本語 Wikipedia エンティティベクトル」は、日本語版 Wikipedia の本文全文から学習した、単語、および Wikipedia で記事となっているエンティティの分散表現ベクトルです。Wikipedia の記事本文の抽出には WikiExtractor を、単語分割には MeCab を、単語ベクトルの学習には word2vec をそれぞれ用いています。 ダウンロード 20170201.tar.bz2 (2017年2月1日版, 1.3GB, 解凍後 2.6GB) 20161101.tar.bz2 (2016年11月1日版, 1.3GB, 解凍後 2.6GB) バイナリファイル (entity_vector.model.bin) とテキストファイル (ent