R で日本語テキストに word2vec word2vec word2vec は単語列をベクトルで表現する手法ですが、応用することで意味構造を可視化できる手法です。ググれば解説は無数に出てきます。 さて、本稿ではRを使って日本語テキストにword2vecを適用する方法を概観します。 ここでは WordVectors パッケージの利用方法を説明します。 日本語テキストの処理 wordVectors パッケージで日本語テキストを処理するためには、あらかじめ単語ごとに分ち書き(つまり単語を分割し、単語間に半角スペースを挿入)しておきます。形態素解析については『Rによるテキストマイニング入門』を参照してください。 テキストの準備 宮沢賢治 『銀河鉄道の夜』を青空文庫からダウンロードし、ルビなどのメタ情報を削除 ## テキストのダウンロードと前処理 source("http://rmecab.jp/