[B! python][Python][word2vec] teddy-gのブックマーク

teddy-g id:teddy-g

pythonとPythonとword2vecに関するteddy-gのブックマーク (3)

gensim入門 - Qiita
手軽にトピック分析を実行できるgensimを知ったので、gensimを使用して簡単な文章をトピック分析するチュートリアルを実行してみました。トピック分析、LDA、gensimとは詳しく理解してはいないので、簡単に言うと、トピック分析とは、大量の文章からいくつかのトピックを分類して、与えられた文章がどのトピックに属するかを分類する手法 LDAとは、トピック分析の1種 gensimとは、トピック分析を行うことができるPython製のソフトウェア gensimを使ったトピック分析は、以下の手順で行えるようです。文章を準備文章を単語ごとに分割、調整辞書を作成コーパスを作成 LDAモデルを作成分類したい文章をLDAモデルで分類前提 Docker Python 2環境を作るのが面倒だったのでDockerを使っているだけです。 $ docker version Client: Vers
teddy-g 2018/02/18
gensim使えば簡単に分析できるがその前にまず自分でやってみないと

bigdata

data

datascience

analytics

word2vec

mecab

gensim

lda

python
リンク
Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
はじめにこんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。本日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。このロジックを実装した目的は、ことばの表記ゆれ（類義語）発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか？仕組みの概要（下記）が分かると、理由を理解できます。 Word2Vecの仕組み（簡単に） Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです！数値
teddy-g 2018/02/18
これも単語分散表現の話。Word2Vecの仕組みをわかりやすく書いてる。

bigdata

datascience

data

analytics

python

word2vec
リンク
Pythonで単語分散表現のクラスタリング - Ahogrammer
最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。イメージ的には、以下のような感じで単語をクラスタにまとめます。では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。準備まずは、作業用のディレクトリを作成しておきましょう。また、必要に応じて Python の仮想環境も用意します。以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work
teddy-g 2018/02/18
単語分散表現は色々とやってみたいがなかなか時間が取れない

bigdata

data

analytics

datascience

python

word2vec
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx