タグ

2007年3月20日のブックマーク (1件)

  • Web系雑記: サロゲートペアをJavaScriptで検出する方法

    ちょっと調べる機会があったので。 まずサロゲートペアの性質について ・Unicode と UTF http://www.parof.jp/Programing/Unicode/ Unicode で「D800~DFFF」の範囲(これがサロゲート領域)にあるビット列がでてきたら、次の2バイトと合わせて1文字と認識しなさい、と定められています(逆に言うと、「D800~DFFF」はそれだけで表現される文字というのが定められていません)。そしてこの領域のうち「D800~DBFF」は4バイトのうち上位2バイトで使い、「DC00~DFFF」は下位2バイトで使われます。 JavaScriptのcharCodeAtメソッドでサロゲートペアの文字 一文字を調べると、charCodeAt(0)で上位サロゲートのコード、 charCodeAt(1)で下位サロゲートのコードが返ってきます。 (ちなみにlengthは

    tsuyok
    tsuyok 2007/03/20