意味的に近い単語の分布を知りたい。そんなときは、2次元の分布図を作成するのが有効です。 kaggleで特徴量を調査するときにも役立つツールになります。 この記事では、word2vecによる分散表現、PCA(主成分分析)による次元圧縮(N次元から2次元へ)、単語を2次元の図にプロットする方法を解説します。 なお、word2vecによる分散表現についてはUdemyの自然言語処理の講座が参考になります。 この記事のword2vecの部分は、Udemyの自然言語処理の講座を参考にしています。
さて、今回はPythonによるword2vecの実践編です! word2vecって何??という方は、こちらの記事を一読してから本記事に入って頂くといいかと思います。 www.randpy.tokyo (こちらとても高評価頂いております。ありがとうございます!!) 上のリンク先でも書きましたが、簡単にまとめると、word2vecを使うことで単語の意味をベクトル表現化することができます。 単語の意味をベクトル表現できると、 近い意味の単語を調べる 単語同士の意味を足したり引いたり といった嬉しいことが実現できます。 ということで今回は、タイトルにもある通りJK用語の代表格である”マジ卍”という言葉の意味を、word2vecに聞いてみたいと思います。 本当は"マジ卍"の意味を直接JKに聞きたいのですが、JKの知り合いも当然いないですし……まぁここは頭を使ってデータを使えばなんか分かるっしょという
word2vecで色々な言葉をベクトルに出来たのは良いものの、それを一切活用できない宝の持ち腐れ状態だったのでpythonで色々といじくれるように頑張ってみました。 word2vecをpythonでいじれる環境を作る 依存するパッケージをpipでインストールします。 sudo -H pip install -I numpy scipy gensim matplotlib sklearn python仕様に辞書を作り直す 以前作ったモデルファイルはバイナリになっていてpythonで使うことが出来ないので(多分)、それも含めてもう一度学習をしないといけなくなりました。ので、今回はpythonでコーパスから学習するpythonのコードを。 # -*- coding:utf-8 -*- from gensim.models import word2vec files = word2vec.Text
久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる
1. 本Part概要 こんにちは。pira_ninoです。 早速のお知らせなのですが、本編から超絶優秀な友人のtaijest君も編集に加わってもらっています。これに伴いブログのタイトルも若干変更しました。 さて本題に戻ります。 前PartではB'zの歌詞を「LDA」を用いた曲のクラスタリングを行いました。 皆様のおかげで週間のランキングで11位に載りました!!ありがとうございます!! pira-nino.hatenablog.com blog.hatenablog.com 本Partでは最近流行りの「Word 2 Vec」を用いて単語の意味の分析を行なっていきます。 目標としましては、B'zの歌詞を用いて「きれい」に意味が近い単語は何かや「あなたと恋するためには僕には何が必要か」といった分析を行っていきます。 Word 2 Vecを用いた分析の目標 2. Word 2 Vecとは 早速、本
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く