タグ

PythonとMeCabに関するdotredのブックマーク (2)

  • MeCabをブーストさせよう - Qiita

    はじめに MeCabとは日語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。 そもそもなぜ、形態素解析なんかやるの?っていう動機については、http://qiita.com/Hironsan/items/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1 追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/items/

    MeCabをブーストさせよう - Qiita
  • Word2VecをPythonでやってみる | Foolean – 備忘録風雑記ブログ

    2016-08-27自然言語処理Python, Word2Vec ちょっと前から、自然言語処理分野を騒がせている「Word2Vec」という手法があります。これは、文章(単語の羅列)から単語の前後関係やらを用いて、単語のベクトルを学習しようと言うものです(たぶん)。 このベクトルというのが面白いもので、ベクトル間の距離が小さ(内積が大き)ければ、その二つの言葉は近い存在(ex. 犬と や JPGとPNG など)ということになります。さらに、ベクトルであるがゆえに、それらの足し算・引き算ができます。このことが意味するのは・・・。 突然ですが、あなたは以下の式の「?」には何が当てはまると思いますか? 王様 – 男性 + 女性 = ? 初見では、いまいちパッとこないかもしれませんが、この式が一番有名な例となっております。で、この式は「女王」がいい感じに当てはまるはずです。おまけに、もう一つ例を挙

    Word2VecをPythonでやってみる | Foolean – 備忘録風雑記ブログ
  • 1