タグ

ブックマーク / qiita.com/yuuki_1204_ (2)

  • Pythonで機械学習はじめました クラスタリング&次元圧縮&可視化編 - Qiita

    はじめに 前回の「データ前処理編」から時間が空いてしまいましたが、今回はTwitterのテキストデータをクラスタリングをしてみます。 3行でまとめ (やっと)クラスタリングした。 クラスタリングした結果をmatplotlibで可視化した。 次回は脇道で可視化の小技紹介になるかも。 いきなりソースコード(可視化以外) 前回の「ベクトライズ」の実装に「クラスタリング」「次元圧縮」の実装を追加してみました。(「可視化」のソースはちょっと長いので後で) #! /usr/bin/env python # -*- coding:utf-8 -*- import MeCab as mc from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from sklearn.de

    Pythonで機械学習はじめました クラスタリング&次元圧縮&可視化編 - Qiita
    Kanasansoft
    Kanasansoft 2017/09/23
    scikit-learnを使ったクラスタリング処理の実装例。
  • Pythonで機械学習はじめました データ前処理編 - Qiita

    はじめに PyCon JP 2016に参加してきました!大変モチベーションが上がった!ので更新します← ちなみにPyConで勉強してきたことも、追々整理&動かしてみて、記事にしてみたいと思います。 今回は「データ準備編」の続きで、Twitterのテキストデータをクラスタリング…する前に、データ前処理とテキストデータ同士の簡単な類似度算出をしてみます。 ご注意!(前回と同じ) 理論よりも、とりあえず触って理解するやり方が好きなので、色々と雑です。 さらに文盲ということで、分かりづらい文章になると思ってます。 そんな訳で読んでてツッコミたくなる内容は多々あると思いますが、ご了承頂きたく! ※優しいツッコミは大歓迎です 3行でまとめ クラスタリングの前処理として、テキストデータを数値(ベクトル)化した。 数値化したテキストデータ同士で、類似度を計算してみた。 次回からクラスタリングできる!(はず

    Pythonで機械学習はじめました データ前処理編 - Qiita
    Kanasansoft
    Kanasansoft 2017/09/23
    scikit-learnを使ったクラスタリング処理の実装例。
  • 1