弾さんのところにUTF-8 vs. ISO-10646というentryが。PerlではルーズなUTF-8のことをutf8と読んでましたね。 というわけで、UTF-8 の文字にマッチする正規表現という話。蛇足になりますけれど、もっと厳密にしますと、最短でないUTF-8表現を除外できるので、 $RE_UTF8CHAR_STRICT_AND_SECURE = qr/(?: [\x00-\x7F] | # U+0000 - U+007F [\xC2-\xDF][\x80-\xBF] | # U+0080 - U+07FF \xE0[\xA0-\xBF][\x80-\xBF] | # U+0800 - U+0FFF [\xE1-\xEC][\x80-\xBF]{2} | # U+1000 - U+CFFF \xED[\x80-\x9F][\x80-\xBF] | # U+D000 - U+D7FF