タグ

2020年4月19日のブックマーク (4件)

  • Out-of-the-box - 日本語Wikipediaで学習したdoc2vecモデル

    Wikipediaを対象にdoc2vec学習させたモデルを作成したので、学習済みモデルとして公開します。 概要 doc2vecは2014年にQuoc LeとTomas Mikolovによって発表された文章の埋め込みの手法です。今更doc2vecかという感じではありますが、日語のdoc2vecの学習済みモデルは探した限り容易に利用できるものがなかったこともあり、せっかくなので作成したモデルを配布します。 word2vecのような単語の分散表現においては学習済みモデルとして配布されたものを利用することが多いですが、文章の埋め込みに関しては対象とするドキュメント集合やそのドメインに特化した学習モデルを作成することが多い印象です。なので、学習済みモデルファイルの配布自体にそれほど意味があるわけではなさそうですが、既存手法との比較に利用したり、とりあえず何かしらの手法で単語列から文章ベクトル

    Out-of-the-box - 日本語Wikipediaで学習したdoc2vecモデル
  • LDAによるトピック解析 with Gensim - Qiita

    はじめに 今回は、Latent Dirichlet Allocation(潜在的ディリクレ配分法、以下「LDA」と略)と呼ばれるトピックモデルについて取り上げます。 特に記事では、LDA というトピックモデルを扱う上で押さえておくべき、トピックモデルやコーパスの概念に触れながら、前処理を含めた分析の流れやモデルの評価方法などについて、実装を通じて理解を深めていくことを目的とします。 また併せて、記事では、結果の可視化の手法についてもいくつか紹介したいと思います。 分析の流れとしては、ストップワードなどの文章の前処理の後、Gensim を用いて、文章をいくつかのトピックに分類していき、最後に WordCloud と pyLDAvis により結果の可視化を行っていきます。 目次 トピックモデルについて 分析環境と事前準備 モジュールの設定とデータのインポート 前処理 辞書とコーパスの作成

    LDAによるトピック解析 with Gensim - Qiita
  • Python: tqdm で処理の進捗状況をプログレスバーとして表示する - CUBE SUGAR CONTAINER

    最近は Pythonデータ分析機械学習の分野でも使われるようになってきた。 その影響もあって REPL や Jupyter Notebook 上でインタラクティブに作業することも増えたように感じる。 そんなとき、重い処理を走らせると一体いつ終わるのか分からず途方に暮れることもある。 今回紹介する tqdm は、走らせた処理の進捗状況をプログレスバーとして表示するためのパッケージ。 このパッケージ自体はかなり昔からあるんだけど、前述した通り利用環境の変化や連携するパッケージの増加によって便利さが増してきてる感じ。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.5 BuildVersion: 17F77 $ python -V Python 3.6.5 もくじ もくじ 下準備 基的な使い方 panda

    Python: tqdm で処理の進捗状況をプログレスバーとして表示する - CUBE SUGAR CONTAINER
  • B'zの歌詞をPythonと機械学習で分析してみた 〜Word 2 Vec編〜 - 下町データサイエンティストの日常

    1. Part概要 こんにちは。pira_ninoです。 早速のお知らせなのですが、編から超絶優秀な友人のtaijest君も編集に加わってもらっています。これに伴いブログのタイトルも若干変更しました。 さて題に戻ります。 前PartではB'zの歌詞を「LDA」を用いた曲のクラスタリングを行いました。 皆様のおかげで週間のランキングで11位に載りました!!ありがとうございます!! pira-nino.hatenablog.com blog.hatenablog.com Partでは最近流行りの「Word 2 Vec」を用いて単語の意味の分析を行なっていきます。 目標としましては、B'zの歌詞を用いて「きれい」に意味が近い単語は何かや「あなたと恋するためには僕には何が必要か」といった分析を行っていきます。 Word 2 Vecを用いた分析の目標 2. Word 2 Vecとは 早速、

    B'zの歌詞をPythonと機械学習で分析してみた 〜Word 2 Vec編〜 - 下町データサイエンティストの日常