ref:http://www.nishiohirokazu.org/pwe2007/2007/06/post_1.html まじめにやろうとすると、sentence split して tokenize しないといけないんだけど、まぁ、さすがにその辺は手抜き。なので、U.S.A. だとか Mr. だとかはうまく処理できない。 しかし、fileinput を使っている人が案外少ない。 import sys, re, fileinput import itertools WORD_PATTERN = re.compile(r'[\w][\w\']*') def words(s): return WORD_PATTERN.findall(s) def normalized_words(s): return (word.lower() for word in words(s)) def main(a