タグ

word2vecに関するmahler-5のブックマーク (3)

  • R で日本語テキストに word2vec - Qiita

    word2vec は単語列をベクトルで表現する手法ですが、応用することで意味構造を可視化できる手法です。ググれば解説は無数に出てきます。 さて、稿ではRを使って日語テキストにword2vecを適用する方法を概観します。 ここでは WordVectors パッケージの利用方法を説明します。 日語テキストの処理 wordVectors パッケージで日語テキストを処理するためには、あらかじめ単語ごとに分ち書き(つまり単語を分割し、単語間に半角スペースを挿入)しておきます。形態素解析については『Rによるテキストマイニング入門』を参照してください。 テキストの準備 宮沢賢治 『銀河鉄道の夜』を青空文庫からダウンロードし、ルビなどのメタ情報を削除 ## テキストのダウンロードと前処理 source("http://rmecab.jp/R/Aozora.R") kenji <- Aozora(u

    R で日本語テキストに word2vec - Qiita
  • Word2Vecを用いて蒙古タンメン中本の口コミ評価を予測してみる – かものはしの分析ブログ

    都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト はじめに word2vecを用いた分類は以前からやってみたいと思っていたのですが、関心を持てるテキストデータがなかったのでなかなか手を出していませんでした。 ある時、ふとしたことから某グルメ系口コミサイトから蒙古タンメン中の口コミと評価点を抽出して、その評価をword2vecでやってみるのは面白いだろうと思いついたので、さっそくやってみます。 こういう時にはじめて、データ分析だけでなくクローリング屋としても業務をやっていて良かったなと思うところですね。 コードは以前

    Word2Vecを用いて蒙古タンメン中本の口コミ評価を予測してみる – かものはしの分析ブログ
  • 挑戦! word2vecで自然言語処理(Keras+TensorFlow使用)

    ご注意:記事は、@IT/Deep Insider編集部(デジタルアドバンテージ社)が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「@IT」へと転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。 ディープラーニングと自然言語処理 画像認識や音声認識の分野では、すでに圧倒的ともいえる成果を誇っているのがディープラーニングである。画像識別のニュースに驚かされてからわずか数年のうちに、例えば「GAN(Generative Adversarial Network)」という技術が開発されていて、これを使うと、文字どおり何もないところから写真と見まがう画像を生成することができる。まさに、「十分に進歩した科学は魔法と区別がつかない」。 では、ディープラーニングのもう一方の有力分野である自然言語処理の状況はど

    挑戦! word2vecで自然言語処理(Keras+TensorFlow使用)
  • 1