つい数日前終わった学会で出ていたので電車の中で一通り読んでみた. Improving Gender Classification of Blog Authors (EMNLP 2010) 一文でまとめると,今まで色々な論文で別々に報告されていた素性を全て使った上,1) (従来使われていた trigram 以上の長さも考慮した)可変長品詞列の素性を 2) 新しい素性選択手法で丁寧に追加して分類器を作ったら,既存手法より10%弱精度が上がりました (79.63%->88.56%),という論文. 1 は古典的な頻出パターン抽出(Apriori)と同様で,2 は既存手法のアンサンブル.実際に素性として追加された品詞列の例とか最初の方で見せてくれたらテンション上がるのだけど,最後まで無かった.手法自体はややアドホックな感じなので,結果押しで通ったのではないかな.実験はしっかりされているし.手法の効果