タグ

perlとutf-8に関するn246のブックマーク (4)

  • [を] UTF-8 の文字にマッチする正規表現

    UTF-8 の文字にマッチする正規表現 2006-03-09-1 [Programming] UTF-8の文字にマッチする正規表現の素直版。 レガシーなのに対応するとき用にメモ。 [\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7] [\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5} 1 2 3 4 5 60xxxxxxx 110xxxxx10xxxxxx 1110xxxx10xxxxxx10xxxxxx 11110xxx10xxxxxx10xxxxxx10xxxxxx 111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx 1111110x10xxxxxx10xxxxxx10xxxxx

  • use encoding 'utf-8' & encoding::warnings: blog.bulknews.net

    use encoding 'utf-8' & encoding::warnings Perl ネタ。 XML まわりなんかを扱うときについて回る UTF-8 フラグ (Unicode フラグ)をどう落とすか的ネタがもりあがっていますねぇ。このネタは拙書の Blog Hacks でも 1 Hack さいて解説してあります。 Blog Hacks ―プロが教えるテクニック&ツール100選posted with amazlet on 05.09.30宮川 達彦 伊藤 直也 オライリー・ジャパン (2004/08/07) 売り上げランキング: 20,714 Amazon.co.jp で詳細を見る たしかに内部的に UTF-8 フラグを落としてバリバリつなげちゃえば、場当たり的に楽は楽なんだけど、内部的に Unicode フラグをもったまま処理して、最後に出力するときに落とす(encode する)と

  • XML::Parser を Hack して utf8 フラグ問題から解放される - naoyaのはてなダイアリー

    意外と知られてないのかもしれないので書いてみる。というか竹迫さんのパワポに書いてるまんまなんだけど、XML::Parser のソースに以下のパッチを当てるのみ。 --- XML-Parser-2.34-orig/Expat/Expat.xs Mon Jul 28 23:41:10 2003 +++ XML-Parser-2.34/Expat/Expat.xs Fri Aug 27 08:36:39 2004 @@ -17,6 +17,8 @@ #undef convert +#undef SvUTF8_on + #include "patchlevel.h" #include "encoding.h"するとあら不思議、XML::Parser で utf8 フラグが立たなくなります。ということは XML::RSS でもまた然り(XML::RSS の中では XML::Parser で pars

    XML::Parser を Hack して utf8 フラグ問題から解放される - naoyaのはてなダイアリー
  • Unicode::RecursiveDowngrade - naoyaのはてなダイアリー

    UTF-8 フラグがどうもウザいという人向けにこんな CPAN モジュールがあるそうな。 「あるそうな」というか作ったのあなたでしょと軽くツッコミつつ、これはいいものです。Perl 5.8 における悩ましい問題であるところの UTF-8 フラグを、データ構造を再帰的に下って全部 off にしてくれるモジュールです。 http://search.cpan.org/dist/Unicode-RecursiveDowngrade/ なにげにフラグを落とす処理を pack('C0A*', shift)と pack な魔法でやってるところも素敵。Encode や unicode を必要としないので Perl 5.6 とかでも使えます。pack な方法はおそらく竹迫さんのパワポから得たヒントかな。 これまで、TT で utf8off なんてフィルタを書いて [% item.title | utf8of

    Unicode::RecursiveDowngrade - naoyaのはてなダイアリー
  • 1