概要 Luceneは3.6から形態素解析機能も入って日本語文書が手軽に扱えるようになった。 Hadoopを使う際にこれらの機能を利用すれば何かと便利なんではなかろうかと思ったので、サンプルコードを書いてみた。 英語文書を扱ってみる 英語文書を単語に分割してカウントする処理を書いてみる。 下記はStandardTokenizerでsplitし、小文字で統一するLowerCaseFilter、「a, and, is, to」などの頻出文字列を取り除くStopFilter、単語末尾の「's」を取り除くEnglishPossessiveFilter、複数形などの揺れを統一するKStemFilterなどをかけてWordCountを行っている。 public class EnWordCountMapper extends Mapper<LongWritable, Text, Text, LongWri