タグ

word2vecと日本語に関するni66lingのブックマーク (2)

  • 日本語 Wikipedia エンティティベクトル

    お知らせ (2018/09/24) 最新版の訓練済みベクトルと訓練用のスクリプトは GitHub で公開しています。 概要 「日Wikipedia エンティティベクトル」は、日語版 Wikipedia文全文から学習した、単語、および Wikipedia で記事となっているエンティティの分散表現ベクトルです。Wikipedia の記事文の抽出には WikiExtractor を、単語分割には MeCab を、単語ベクトルの学習には word2vec をそれぞれ用いています。 ダウンロード 20170201.tar.bz2 (2017年2月1日版, 1.3GB, 解凍後 2.6GB) 20161101.tar.bz2 (2016年11月1日版, 1.3GB, 解凍後 2.6GB) バイナリファイル (entity_vector.model.bin) とテキストファイル (ent

    日本語 Wikipedia エンティティベクトル
  • いますぐ使える単語埋め込みベクトルのリスト - Qiita

    はじめに 単語埋め込みとは、単語を低次元(と言っても200次元程度はある)の実数ベクトルで表現する技術のことです。近い意味の単語を近いベクトルに対応させることができるとともに、ベクトルの足し引きで意味のある結果(例えば king - man + women = queen)が得られるのが特徴です。 単語埋め込みベクトルは品詞タグ付け、情報検索、質問応答などの様々な自然言語処理アプリケーションに使われる重要な技術です。とはいえ、実際に用意するのはなかなか骨の折れる作業です。大規模なデータをダウンロードし、前処理をかけ、長い時間をかけて学習させ、結果を見てパラメータチューニングを行う・・・。 そのため、単に使いたいだけなら学習済みのベクトルを使うのが楽です。というわけで、そんな単語埋め込みベクトルの中から今すぐ使えるものをピックアップしてみました。 埋め込みベクトルの情報は以下のリポジトリにま

    いますぐ使える単語埋め込みベクトルのリスト - Qiita
  • 1