タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

unicodeに関するmid_knightのブックマーク (2)

  • UTF-8 vs. ISO-10646 : 404 Blog Not Found

    2006年03月11日13:07 カテゴリLightweight Languages一日一行野郎 UTF-8 vs. ISO-10646 これだとLiberalなUTF-8ですね。 [を] UTF-8 の文字にマッチする正規表現 UTF-8の文字にマッチする正規表現の素直版。 新旧、というのか、LiberalなUTF-8とStrictなUTF-8の違いは、RFC2044とRFC2279を見ればはっきりします。要はU+11000より上を認めるかどうかということです。今のところUnicode.orgの定義では、U+0000 - U+10FFFF しか認めていないので、そちらの定義に従うと、むしろこの正規表現はさらに短く $RE_UTF8CHAR_STRICT = qr/(?:[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}

    UTF-8 vs. ISO-10646 : 404 Blog Not Found
  • [を] UTF-8 の文字にマッチする正規表現

    UTF-8 の文字にマッチする正規表現 2006-03-09-1 [Programming] UTF-8の文字にマッチする正規表現の素直版。 レガシーなのに対応するとき用にメモ。 [\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7] [\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5} 1 2 3 4 5 60xxxxxxx 110xxxxx10xxxxxx 1110xxxx10xxxxxx10xxxxxx 11110xxx10xxxxxx10xxxxxx10xxxxxx 111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx 1111110x10xxxxxx10xxxxxx10xxxxx

  • 1