はじめに 前回の「データ前処理編」から時間が空いてしまいましたが、今回はTwitterのテキストデータをクラスタリングをしてみます。 3行でまとめ (やっと)クラスタリングした。 クラスタリングした結果をmatplotlibで可視化した。 次回は脇道で可視化の小技紹介になるかも。 いきなりソースコード(可視化以外) 前回の「ベクトライズ」の実装に「クラスタリング」「次元圧縮」の実装を追加してみました。(「可視化」のソースはちょっと長いので後で) #! /usr/bin/env python # -*- coding:utf-8 -*- import MeCab as mc from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from sklearn.de