タグ

ブックマーク / qiita.com/rmecab (1)

  • R で日本語テキストに word2vec - Qiita

    word2vec は単語列をベクトルで表現する手法ですが、応用することで意味構造を可視化できる手法です。ググれば解説は無数に出てきます。 さて、稿ではRを使って日語テキストにword2vecを適用する方法を概観します。 ここでは WordVectors パッケージの利用方法を説明します。 日語テキストの処理 wordVectors パッケージで日語テキストを処理するためには、あらかじめ単語ごとに分ち書き(つまり単語を分割し、単語間に半角スペースを挿入)しておきます。形態素解析については『Rによるテキストマイニング入門』を参照してください。 テキストの準備 宮沢賢治 『銀河鉄道の夜』を青空文庫からダウンロードし、ルビなどのメタ情報を削除 ## テキストのダウンロードと前処理 source("http://rmecab.jp/R/Aozora.R") kenji <- Aozora(u

    R で日本語テキストに word2vec - Qiita
  • 1