携帯電話の絵文字に触れる機会があったので、絵文字にマッチする正規表現を。 絵文字は Unicode の外字領域にある。なので絵文字以外の外字が使われていないという前提があるならば、こうしてしまえばよい。 import re private_use = re.compile(ur'[\uE000-\uF8FF]') これだとあまりにも乱暴なので、以下の Wikipedia 記事を参考に範囲を狭めると、こうなる。 import re _au = ur'\ue468-\ue5df\uea80-\ueb88' _docomo = ur'\ue63e-\ue6a5\ue6ac-\ue6ae\ue6b1-\ue6ba\ue6ce-\ue757' _softbank = ur'\ue001-\ue05a\ue101-\ue15a\ue201-\ue253\ue301-\ue34d\ue401-\ue44