機械学習手法に基づくテキスト分類は十分な学習データがあれば高い精度が期待できますが、分類ラベルを人手でつける作業に手間がかかります。そこで、効率的に分類器を学習させる手法として、効果的な分類対象を優先的にラベル付けさせる能動学習(active learning)というアプローチがあります。 DUALISTは、アノテータに対象のラベル付けと同時に、素性であるキーワードが適切かどうかの判定を委ねる能動学習システムで、7月に開催されるEMNLP 2011に採択された論文で提案されており、実装も公開されています。 Google Code Archive - Long-term storage for Google Code Project Hosting. DUALISTのインストールと実行は簡単です。システムはJavaで実装されていて、機械学習パッケージのMALLETが同梱されています。他に、W