タグ

2019年8月2日のブックマーク (4件)

  • Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita

    はじめに こんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。 このロジックを実装した目的は、ことばの表記ゆれ(類義語)発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか?仕組みの概要(下記)が分かると、理由を理解できます。 Word2Vecの仕組み(簡単に) Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです! 数値

    Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
    msh514
    msh514 2019/08/02
    単語が似ているかどうか python
  • Word2Vecを使った文章間の類似度算出(簡易版) - Qiita

    文章間の類似度算出にはDoc2Vecなどを使う手もあるんですが、それ用のモデルを一から作ったりしないといけないので、ちょっと面倒。 ある程度の精度を出すだけならWord2Vecのモデルをそのまま使えた方が汎用的で楽かもしれません。 ということで、文章に含まれる単語の特徴ベクトル平均と文章間のコサイン類似度をもとに、文章間の類似度を算出してみました。 環境 # OS macOS Sierra # Python(Anacondaを使用) Python : Python 3.5.3 :: Anaconda custom (x86_64) pip : 9.0.1 from /Users/username/anaconda/lib/python3.5/site-packages (python 3.5) python3.6だといろいろとうまく動かなかったので、Anacondaのpython3.5バー

    Word2Vecを使った文章間の類似度算出(簡易版) - Qiita
    msh514
    msh514 2019/08/02
    単語が似ているかどうか python
  • Python で文字列の類似度を比較する - 無駄と文化

    語の処理をしているときに厄介なのが表記揺れですよね。 「コンピューター」と「コンピュータ」、「問い合わせ」と「問い合せ」など。人間が見れば同じ単語だと分かっても、プログラムで処理する際に単純に等号で比較してしまうと別の単語扱いになってしまいます。 今回は類似度を用いて二つの単語を評価することで、表記揺れの問題に対処してみます。 単語間の類似度を算出する 単純に文字列が 等しいか/異なるか 二者択一で評価するのではなく、類似度 を用いて評価してみましょう。 類似度は 0~1 の float で表される値で、二つの単語が全く異なれば 0 、全く一致すれば 1 に評価されます。 そして、全て一致しないにしても似ている単語同士であれば 1に近い少数 に評価されます。 「一致はしないけど、まぁまぁ似てるから同じ単語なんちゃう?」というファジーな評価をするわけですね。 今回は Python を使い

    Python で文字列の類似度を比較する - 無駄と文化
    msh514
    msh514 2019/08/02
    単語が似ているかどうか python
  • Papyrus

    msh514
    msh514 2019/08/02
    UML eclipse