ACL2011 Fei Liu, Fuliang Weng, Bingqing Wang, Yang Liu 口語表現を文語表現に正規化する。 アノテーションデータを作らず、自動でwebから収集するらしい。 Edinburgh Twitter corpusには、400万語のout-of-vocabularyがあるらしい。 たとえば、"together"は"2gether","togetha","ththr"など。 従来手法 Noisy channel model Noisy channel modelを使って、口語的表現から尤もらしい単語を見つける。 まず、口語的表現をカテゴライズする。 例えば、abbreviation、stylish variation?、prefix-clippingなど。 それから、カテゴリごとに学習する。 Hidden Markov Model HMMでアノテーシ