タグ

ブックマーク / qiita.com/daikw (1)

  • wp2txtでハマった話 - Qiita

    何をしたかったか 去年あたりから有名な、Word2Vecを触ることになった。 Word2Vecはどんなものかというと、単語の意味を文脈(単語の前後にある一連の単語)から判断し、100~200次元くらいの空間に射影するのだとか。単語がベクトルを持ち、このベクトルの向きがその単語の意味に相当するので、意味の足し引きなどができるようになるそう。Word2Vecについて詳しくは↓ 米googleの研究者が開発したWord2Vecで自然言語処理(独自データ) Word2Vecは文脈から判断するために、分かち書きされた大量の文書データを必要とするそうだ。 日語のデータを分かち書きするには、MeCabというアプリケーションが使われる。MeCabは辞書を元に確率的に解析して、文書の中で分けるのに最適な部分を見つけてくるのだとか。辞書にない言葉は認識できないので、分かち書きしたい文書のジャンルによっては、

    wp2txtでハマった話 - Qiita
  • 1