[B! MachineLearning][Python] t28atenaのブックマーク

t28atena id:t28atena

MachineLearningとPythonに関するt28atenaのブックマーク (2)

B'zの歌詞をPythonと機械学習で分析してみた〜LDA編〜 - 下町データサイエンティストの日常
1. 本Part概要前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatena blog.com 2. LDAとは 2.1 LDAのイメージ先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。このグループ1つ1つを「トピック」と呼びます。例えば、大量のニュース記事にLDAを適用する例を考えます。ニュース記事データにLDAを適用した例 LDAでは「各トピック（トピック数は予め指定）における各単語の所属確率」が算出されます。理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法との理解で大丈夫です。よく勘違いされることとして以下の2点を示します。トピック数（いくつ
t28atena 2018/07/31
Python

MachineLearning
リンク
文章をベクトル化して類似文章の検索 - Qiita
Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとはコンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。単語の意味をベクトル化する手法としてWord2Vecが存在します。詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。こうすることで、例えば「犬」と「猫」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。実装サンプル今回Doc2Vecを用いて実現するのは、以下の2つの機能です。単語で文章を検索類似文章の検索サンプルとして、青空文庫の文章を使用しました。なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzipに
t28atena 2017/02/28
Python

MachineLearning
リンク
1