msh514のブックマーク / 2019年8月2日

msh514 id:msh514

2019年8月2日のブックマーク (4件)

Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
はじめにこんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。本日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。このロジックを実装した目的は、ことばの表記ゆれ（類義語）発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか？仕組みの概要（下記）が分かると、理由を理解できます。 Word2Vecの仕組み（簡単に） Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです！数値
msh514 2019/08/02
単語が似ているかどうか python
リンク
Word2Vecを使った文章間の類似度算出（簡易版） - Qiita
文章間の類似度算出にはDoc2Vecなどを使う手もあるんですが、それ用のモデルを一から作ったりしないといけないので、ちょっと面倒。ある程度の精度を出すだけならWord2Vecのモデルをそのまま使えた方が汎用的で楽かもしれません。ということで、文章に含まれる単語の特徴ベクトル平均と文章間のコサイン類似度をもとに、文章間の類似度を算出してみました。環境 # OS macOS Sierra # Python(Anacondaを使用) Python : Python 3.5.3 :: Anaconda custom (x86_64) pip : 9.0.1 from /Users/username/anaconda/lib/python3.5/site-packages (python 3.5) python3.6だといろいろとうまく動かなかったので、Anacondaのpython3.5バー
msh514 2019/08/02
単語が似ているかどうか python
リンク
Python で文字列の類似度を比較する - 無駄と文化
日本語の処理をしているときに厄介なのが表記揺れですよね。「コンピューター」と「コンピュータ」、「問い合わせ」と「問い合せ」など。人間が見れば同じ単語だと分かっても、プログラムで処理する際に単純に等号で比較してしまうと別の単語扱いになってしまいます。今回は類似度を用いて二つの単語を評価することで、表記揺れの問題に対処してみます。単語間の類似度を算出する単純に文字列が等しいか/異なるか二者択一で評価するのではなく、類似度を用いて評価してみましょう。類似度は 0～1 の float で表される値で、二つの単語が全く異なれば 0 、全く一致すれば 1 に評価されます。そして、全て一致しないにしても似ている単語同士であれば 1に近い少数に評価されます。「一致はしないけど、まぁまぁ似てるから同じ単語なんちゃう？」というファジーな評価をするわけですね。今回は Python を使い
msh514 2019/08/02
単語が似ているかどうか python
リンク
Papyrus
msh514 2019/08/02
UML eclipse
リンク
- 2019年8月7日
- 2019年8月2日
- 2019年8月1日