ICMLにこんなの通るんだ、と思った論文。Large Scale Text Classi¯cation using Semi-supervised Multinomial Naive Bayes ナイーブベイズでP(c|d)∝P(c)Π_i P(w_i|c)を求めるときに、もう一回ベイズの定理を適用してP(w_i|c)=P(w_i)P(c|w_i)/正規化項 と変形してやってP(w_i)はラベル無しデータで、P(c|w_i)はラベルありデータで推定するというシンプルな手法 ラベル付きデータが64〜512個と極端に少ない 識別モデルと比較していない でもGoogle N-gramなどの汎用の言語モデルが使えるので実用上は便利そう 教師ありNBやEMアルゴリズムによる半教師あり学習より大幅に精度向上参考:ICML2011気になった論文リスト - kisa12012の日記ツイートする