[B! Python][k-means] chanyou0311のブックマーク

ノート/テキストマイニング/gensim-word2vecでベクトル空間を試す(4) - 東邦大学理学部情報科学科　山内のサイト

chanyou0311 2017/06/09

リンク

scikit-learn による最も基本的なクラスタリング分析 - Qiita

scikit-learn + クラスタリングに関してはこのブログのだいぶ初期にちょっとだけ触ったのですが、今にして思うと説明不足感が否めないですし、そもそもこれだけじゃ scikit-learn を思い通りの目的にあわせて使えないという意見もあるかと思います。そこで改めて scikit-learn による基本的なクラスタリングについて説明していきます。といっても基本的な話としては本家のドキュメントを読めで話が終わってしまうのですが、日本語の情報があると何かと助かるということもあるかと思います。生徒の成績をもとに班分けをおこなうよくあるケースとしては例えば、生徒の国語・数学・英語の成績をもとにいくつかのグループに分けたいという場面です。このとき、各科目の合計点の上位から順番に分けてもいいのですが、中には国語が良く出来るけど数学はいまひとつな生徒、数学は得意だけど国語はいまひとつな生徒も

chanyou0311 2017/05/29

リンク

k-meansの最適なクラスター数を調べる方法 - Qiita

背景お手軽なクラスタリング手段としてk-meansが有名であるが、以下の様な困ったポイントがある k-means法の問題点の一つは、クラスタの個数kを指定しなければならないことだ。クラスタリングは探索的 (exploratory) なデータ解析手法であって，分割は必ず何らかの主観や視点に基づいているということです．よって，クラスタリングした結果は，データの要約などの知見を得るために用い，客観的な証拠として用いてはなりません．参照元それは知っている。で、結局クラスター数は本当に分析者の決め打ちでいいのか？「このクラスター数はどうやって決めたの？」「これまでの分析結果からソーゴー的に考えて決定しました」とか言いたくないこのページの目的「最終的には分析官の判断でクラスターは決定しました」といいつつも、何かしら数値としての根拠を持ってクラスター数を決定したい何か良い判断基準は無いの

chanyou0311 2017/05/29

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

Pythonとk-meansに関するchanyou0311のブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (7)

Pythonとk-meansに関するchanyou0311のブックマーク (3)

ノート/テキストマイニング/gensim-word2vecでベクトル空間を試す(4) - 東邦大学理学部情報科学科 山内のサイト

scikit-learn による最も基本的なクラスタリング分析 - Qiita

k-meansの最適なクラスター数を調べる方法 - Qiita

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

ノート/テキストマイニング/gensim-word2vecでベクトル空間を試す(4) - 東邦大学理学部情報科学科　山内のサイト