Clustering text documents using k-means (K平均法を使ってテキスト文書をクラスタリングする)というそのまんまのサンプルがあったので写経して最低限だけ削りだしてみた。 K平均法とかTF-IDFとか潜在意味解析の説明は割愛。 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from sklearn.decomposition import TruncatedSVD from sklearn.preprocessing import Normalizer def main(): _items = [ 'わたし まけ まし た わ', 'わたし まけ まし た わ', 'わたし まけ まし た わ', 'わたし まけ