[B! clustering] akuwanoのブックマーク

akuwano id:akuwano

clusteringに関するakuwanoのブックマーク (3)

HAC に使える feature selection を試す (nakatani @ cybozu labs)
プチ間空きましたが、「IIR の「効果的な」階層的クラスタリング」の続き。「次回は feature selection で次元を落とすのを試してみるべき」と書いたとおり、feature selection(特徴選択)を行ってみます。要は「２５文書しかないのに 8000 語とか多すぎる。文書増えてったらガクブル。よし減らそう。全部必要な訳ないしね。でも、どうやって？」という話です。 IIR では、Chapter 13 にて feature selection を扱っており、また Chapter 18 では LSI(latent semantic indexing)、乱暴に言えば固有ベクトルを求めることでその空間が本来持っている次元数(階数)を導いている。しかし、Ch.13 の内容は Bayesian のような「教師有り分類」の場合の feature selection しかカバーして
akuwano 2009/03/17
clustering

HAC

OSS
リンク
ConsistentHashing - コンシステント・ハッシュ法
ConsistentHashing - コンシステント・ハッシュ法目次この文書についてコンシステント・ハッシュ法実例実装用途コンシステント・ハッシュ法この文書について "Tom White's Blog: Consistent Hashing" の日本語訳です. http://weblogs.java.net/blog/tomwhite/archive/2007/11/consistent_hash.html 推敲歓迎: 誤訳, タイポ, 訳語の不統一, そのほか... 原文のライセンス: http://creativecommons.org/licenses/by-nc-sa/2.0/ 私は今までに何度かコンシステント・ハッシュ法にとりくんだことがある。このアイデアをあらわした論文 ( David Karger らによる Consistent Hashing and R
akuwano 2009/02/27
clustering

memcached

OSS

linux
リンク
IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)
Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。メンテナンスフリーが理想ですが、もちろん難しい。現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。ポイン
akuwano 2009/02/24
ruby

clustering

言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx