「029:特定の文字コードで正規表現マッチを行う」を追加。 正規表現に限らず、テキストを扱うにはユニコード文字列を使うようにするのがベター、といった内容。でも、これで終わるのもなんだし、ユニコード文字列への変換を行わずに何とかする方法も提示してみたかった。 ponyguruma (鬼車のラッパー) そして、鬼車の Python ラッパー ponyguruma が見つかったのでメモ。 バイト列のまま、処理することが可能。 from ponyguruma import * from ponyguruma.constants import ENCODING_UTF8 r = Regexp(u'文字コード'.encode('utf-8'), encoding=ENCODING_UTF8) m = r.search(u'特定の文字コードで正規表現マッチを行う'.encode('utf-8')) pr