タグ

クラスタリングに関するkent013のブックマーク (6)

  • Blom and McCoy - pLSI and NMF

    Comparing pLSI and Non-negative Matrix Factorization This is the homepage for Zack McCoy and Martin Blom for CS395T Data Mining: A Statistical Learning Perspective, Spring 2007. We've completed our project and all the relevant files are below. A quick note: All the code is in Python and requires scipy, numpy, and pylab, all of which you can download from www.scipy.org The main code file is nmfplsa

    kent013
    kent013 2009/05/14
    論文のリファレンス実装
  • 発表文献 - Toshihiro Kamishima

    [解説] [書籍] [論文] [研究会] — [DBLP] [Google Scholar] [ResearchGate] [SpeakerDeck] [CiNii] 解説・サーベイ 以下の講演資料の他に研究紹介のページにも 講義資料などをまとめています. 神嶌 敏弘 “推薦システムへの深層学習の適用” 電子情報通信学会学会誌, vol.105, no.5, pp.430-434 (2022) 公式サイト(会員無料) 神嶌 敏弘 “私のブックマーク「人工知能と公平性」” 人工知能, vol.37, no.2, pp.230-233 (2022) 公式サイト, 印刷版 神嶌 敏弘 “機械学習と公平性に関するシンポジウム” (2020) 公式サイト, 発表資料 神嶌 敏弘, 鹿島 久嗣 “機械学習分野の俯瞰と展望” 人工知能, vol.34, no.6, pp.905-915 (2019) 公

    発表文献 - Toshihiro Kamishima
  • http://blogs.sun.com/yongsun/entry/k_means_and_k_means

  • 文書クラスタリングの基礎

    文書クラスタリングの基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report No. 20070913004 2007年 4月 24日 Abstract 文書クラスタリングでは,文書の定義,クラスタリングに用いる類似度の定義,クラスタリング手法などに特徴的な点がある.そこで報告ではそれらをまとめ,文書クラスタリングに対する理解を深める. 1  はじめに 知的システムデザイン研究室では,ISDLレポートと呼ばれる研究報告を現在までに1300以上Web上に公開している.多くのレポートが存在するが,レポートの分類は行われていないため,クラスタリングにより自動的にレポートのグループ化を行うことを目指している.しかしISDLレポートのような文書に対するクラスタリングではいくつか特徴的な事項があり,それらを考慮する必要がある.そこで報告では文書クラスタリングに関する特徴点をまと

  • K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ

    K-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点で、不適切な初期値選択をすると間違った解に収束してしまいます。 以下は、Introduction to Information Retrievalの16章に出てくる例です。 {d1, d2, ..., d6}をK=2でクラスタリングする場合、{{d1, d2, d4, d5}, {d3, d6}}が大域最適解ですが、初期クラスタの中心をd2, d5で与えると、{{d1, d2, d3}, {d4, d5, d6}}という誤った解に収束してしまいます。 この問題を改善するK-means++という手法を見つけたので、試してみました。 K-means+

    K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ
  • k-means++を試し中 - のんびり読書日記

    http://d.hatena.ne.jp/kaiseh/20090113/1231864089 上の記事を見て、k-means++が面白そうだったので、ちょっとだけ試してみた。 k-meansは初期値に大きく依存するところが嫌い。初期値への依存度を軽減するために、初期値を変えて何回か試行してその中で一番良い結果のものを使用する、なんてことをしないといけない。そのため処理時間も馬鹿にならなくなってしまうので、ちょっとこれじゃあなあ…ということで使ってなかった。 でも今回のk-means++は初期値をうまく求めることで、精度と速度の向上が得られるらしい。これはうれしい! 論文著者のページにサンプルコードがあったので試してみようと思ったんだけど、MFCを使っているみたいで僕の環境ではコンパイルできず…。 http://www.stanford.edu/~darthur/kMeansppTest

    k-means++を試し中 - のんびり読書日記
  • 1