タグ

正規表現とi18nに関するkgbuのブックマーク (1)

  • unicode の大文字小文字は大変だなあ - まめめも

    ちょっと調べただけですが、面白かったのでメモ。世界は広いですね。バベルの塔ですね。 ß ドイツ語では、ß (U+00DF 、エスツェット) を大文字にすると SS になるらしい。 鬼車 (RubyPHP で使われている正規表現エンジン) はこれに対応していて、ignore case にすると、一文字が複数の文字にマッチして驚く。 # coding: UTF-8 p "-SS-"[/-\u00DF-/i] #=> "-SS-" p "-\u00DF-"[/-SS-/i] #=> "-\u00DF-" こういう関係の字は他にもあるみたい。 ref: ftp://ftp.unicode.org/Public/UNIDATA/SpecialCasing.txt İ と ı トルコ語やアゼルバイジャン語では i と I が別の字らしい。i の大文字は İ (U+0130 、点つきの I) で、

    unicode の大文字小文字は大変だなあ - まめめも
    kgbu
    kgbu 2008/12/06
    小文字では1文字、大文字では2文字とか、Iとiは別の字だとか、アルファベットは奥が深いんだな。
  • 1