タグ

2009年11月28日のブックマーク (3件)

  • 九州大学オープンコースウェア(Kyushu University OpenCourseWare)|コースリスト|理学府・理学部|計算理論

    九大OCWとは | ご利用にあたって | 関連サイト | ©2006 Kyushu University 九大OCWのWebサイト、およびこのサイトで公開されている講義資料は、「ご利用にあたって」に記載されている条件にもとづいて利用することができます。

    syou6162
    syou6162 2009/11/28
  • 回帰のための能動学習と自然言語処理 - 武蔵野日記

    東工大の杉山さんが「回帰のための能動学習」というテーマで講演してくれた。先月東工大の自然言語処理合同研究会でも杉山さんのトークを聞いたが、そちらは確率密度比に関する内容で、それとは被っていなかったので参考になる。 能動学習(active learning)というと、人手によるタグづけの手間を減らすために用いられる手法で、前提としてタグづけやサンプルの採取にとてもコスト(時間なりお金なり熟練なり)がかかるとき、いかにして少ないサンプルで機械学習するか、というようなことができる手法。自然言語処理では、たとえば最初いくらかの分量のデータをタグづけし、それから教師あり学習をして自動タグづけモデルを作成し、残りのタグなしデータに適用する。出てきた出力のうち、確信度の高いものはたぶん正解だろうからおいといて、確信度の低いものは現在のモデルで間違えている可能性が高いサンプルなので、これを人に見せてタグづ

    回帰のための能動学習と自然言語処理 - 武蔵野日記
    syou6162
    syou6162 2009/11/28
    人手でラベルを再更新させるのが半教師ありとは違うところなのかな
  • Probabilistic Latent Semantic Analysis : PLSA (Rで実装)

    前回のエントリからはや一ヶ月。月日が立つのは早いものです。 修論に向け、bag-of-featuresの実装をもくろんでおりますが、その一環としてPLSAを試してみました。 参考文献はこちら(リンク先pdf)。 T. Hofmann. Probabilistic latent semantic analysis. In Proceedings of the 15th Conference on Uncertainty in AI, 1999. ちょうど10年前に提案されたモデルですが、LDAの元となったり、現在でも多くの論文が発表されたりと、良い言語モデルのようです。 これをRで素直に実装したのがこちら。 plsi <- function(x, K=10, eps=0.9, max_itr=200,...){ #logsumexp logsumexp<-function(x,y,flg){

    syou6162
    syou6162 2009/11/28