scikit-learn + クラスタリングに関してはこのブログのだいぶ初期にちょっとだけ触ったのですが、今にして思うと説明不足感が否めないですし、そもそもこれだけじゃ scikit-learn を思い通りの目的にあわせて使えないという意見もあるかと思います。そこで改めて scikit-learn による基本的なクラスタリングについて説明していきます。 といっても基本的な話としては本家のドキュメントを読めで話が終わってしまうのですが、日本語の情報があると何かと助かるということもあるかと思います。 生徒の成績をもとに班分けをおこなう よくあるケースとしては例えば、生徒の国語・数学・英語の成績をもとにいくつかのグループに分けたいという場面です。このとき、各科目の合計点の上位から順番に分けてもいいのですが、中には国語が良く出来るけど数学はいまひとつな生徒、数学は得意だけど国語はいまひとつな生徒も
背景 お手軽なクラスタリング手段としてk-meansが有名であるが、以下の様な困ったポイントがある k-means法の問題点の一つは、クラスタの個数kを指定しなければならないことだ。 クラスタリングは探索的 (exploratory) なデータ解析手法であって,分割は必ず何らかの主観や視点に基づいているということです.よって,クラスタリングした結果は,データの要約などの知見を得るために用い,客観的な証拠として用いてはなりません. 参照元 それは知っている。で、結局クラスター数は本当に分析者の決め打ちでいいのか? 「このクラスター数はどうやって決めたの?」「これまでの分析結果からソーゴー的に考えて決定しました」とか言いたくない このページの目的 「最終的には分析官の判断でクラスターは決定しました」といいつつも、何かしら数値としての根拠を持ってクラスター数を決定したい 何か良い判断基準は無いの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く