rabbit2goのブックマーク / 2020年4月19日

rabbit2go id:rabbit2go

2020年4月19日のブックマーク (4件)

Out-of-the-box - 日本語Wikipediaで学習したdoc2vecモデル
日本語Wikipediaを対象にdoc2vec学習させたモデルを作成したので、学習済みモデルとして公開します。概要 doc2vecは2014年にQuoc LeとTomas Mikolovによって発表された文章の埋め込みの手法です。今更doc2vecかという感じではありますが、日本語のdoc2vecの学習済みモデルは探した限り容易に利用できるものがなかったこともあり、せっかくなので作成したモデルを配布します。 word2vecのような単語の分散表現においては学習済みモデルとして配布されたものを利用することが多いですが、文章の埋め込みに関しては対象とするドキュメント集合やそのドメインに特化した学習モデルを作成することが多い印象です。なので、学習済みモデルファイルの配布自体にそれほど意味があるわけではなさそうですが、既存手法との比較に利用したり、とりあえず何かしらの手法で単語列から文章ベクトル
rabbit2go 2020/04/19
doc2vec

機械学習

自然言語処理
リンク
LDAによるトピック解析 with Gensim - Qiita
はじめに今回は、Latent Dirichlet Allocation（潜在的ディリクレ配分法、以下「LDA」と略）と呼ばれるトピックモデルについて取り上げます。特に本記事では、LDA というトピックモデルを扱う上で押さえておくべき、トピックモデルやコーパスの概念に触れながら、前処理を含めた分析の流れやモデルの評価方法などについて、実装を通じて理解を深めていくことを目的とします。また併せて、本記事では、結果の可視化の手法についてもいくつか紹介したいと思います。分析の流れとしては、ストップワードなどの文章の前処理の後、Gensim を用いて、文章をいくつかのトピックに分類していき、最後に WordCloud と pyLDAvis により結果の可視化を行っていきます。目次トピックモデルについて分析環境と事前準備モジュールの設定とデータのインポート前処理辞書とコーパスの作成
rabbit2go 2020/04/19
LDA

自然言語処理
リンク
Python: tqdm で処理の進捗状況をプログレスバーとして表示する - CUBE SUGAR CONTAINER
最近は Python がデータ分析や機械学習の分野でも使われるようになってきた。その影響もあって REPL や Jupyter Notebook 上でインタラクティブに作業することも増えたように感じる。そんなとき、重い処理を走らせると一体いつ終わるのか分からず途方に暮れることもある。今回紹介する tqdm は、走らせた処理の進捗状況をプログレスバーとして表示するためのパッケージ。このパッケージ自体はかなり昔からあるんだけど、前述した通り利用環境の変化や連携するパッケージの増加によって便利さが増してきてる感じ。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.5 BuildVersion: 17F77 $ python -V Python 3.6.5 もくじもくじ下準備基本的な使い方 panda
rabbit2go 2020/04/19
Python

機械学習

プログレスバー
リンク
B'zの歌詞をPythonと機械学習で分析してみた〜Word 2 Vec編〜 - 下町データサイエンティストの日常
1. 本Part概要こんにちは。pira_ninoです。早速のお知らせなのですが、本編から超絶優秀な友人のtaijest君も編集に加わってもらっています。これに伴いブログのタイトルも若干変更しました。さて本題に戻ります。前PartではB'zの歌詞を「LDA」を用いた曲のクラスタリングを行いました。皆様のおかげで週間のランキングで11位に載りました！！ありがとうございます！！ pira-nino.hatena blog.com blog.hatena blog.com 本Partでは最近流行りの「Word 2 Vec」を用いて単語の意味の分析を行なっていきます。目標としましては、B'zの歌詞を用いて「きれい」に意味が近い単語は何かや「あなたと恋するためには僕には何が必要か」といった分析を行っていきます。 Word 2 Vecを用いた分析の目標 2. Word 2 Vecとは早速、本
rabbit2go 2020/04/19
自然言語処理

word2vec

Python
リンク
- 2020年4月24日
- 2020年4月19日
- 2020年4月18日