この記事は 第3回 自然言語処理勉強会@東京 のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたい ただしそのままでは素性数が文章長の二乗のオーダー 素性の候補となる「極大部分文字列」を suffix array/lcp/WDT から線形時間で求める 2回以上現れる任意の部分文字列を素性とするのと同等 一般に、極大部分文字列は全ての部分文字列よりはるかに少ない(trigram〜fivegram ぐらい) grafting/L1 正則化付きロジスティック回帰により、有効な素性(重みが非ゼロ)を効率的に学習 極大部分文字列 例) abracadabra "bra" は "abra" の部分文字列としてしか現れない → "bra"