タグ

kmeansとresearchに関するyukimori_726のブックマーク (2)

  • スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記

    機械学習系のエントリを続けて書いてみる。クラスタリングについて知らない人は以下のエントリ読んでもちんぷんかんぷんだと思うので、クラスタリングという概念については知っているものとする。 それで、今日はスペクトラルクラスタリングの話。自然言語処理以外でも利用されているが、これはグラフのスペクトルに基づくクラスタリングの手法で、半教師あり学習への拡張がやりやすいのが利点。なにをするかというとクラスタリングをグラフの分割問題(疎であるエッジをカット)に帰着して解く手法で、どういうふうに分割するかによって Normalized cut (Ncut) とか Min-max cut (Mcut) とかいろいろある。 完全にグラフが分割できる場合はこれでめでたしめでたしなのだが、実世界のグラフはそんな簡単に切れないことが往々にしてある。それで近似してこのグラフ分割問題を解くのだが、Normalized c

    スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記
  • 第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記

    というわけでようやく第5回を開催しました!!第5回 自然言語処理勉強会 #TokyoNLP : ATND n-gramを小さくする話を調べてみた by @machyさんCompressed ngram View more presentations from Keigo Machinaga N-gramとは 今日の題材はn-gramインデックスではなくn-gram確率(言語モデル)の話 応用:音声認識、手書き文字認識、スペル訂正、かな漢字変換、機械翻訳 単語n-gramを題材とする P(晴れ | 天気 は) = 0.24 P(きっと | 天気 は) = 0.03 n-gramを小さくしたい クライアサイドで動作するアプリケーションのためとか サーバサイドでもオンメモリになるとうれしい 注目するのはメモリ使用量:ファイルサイズではない まずはデータを見てみます 大規模なn-gramを自分で用

  • 1