19 2010年01月19日 15:28 カテゴリPython 文字の種類で切り出す (Python) 漢字やヒラガナ,カタカナ,数字などの文字種類で切り出す. #!/usr/bin/env python # -*- coding: utf-8 -*- import re def parse(text): TOKENS = re.compile(u'[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[。.、,]|[a-zA-Z0-9]+') results = TOKENS.findall(text) return results text = u'平成22年1月19日,今日はとてもいい天気です.' for e in parse(text): print e ※全角英数,半角カタカナは未対応. 実行結果 平成 22 年 1 月 19 日 , 今日 はとてもいい 天気 です . 参考 すべての漢字を

