タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

javascriptとunicodeに関するreptamのブックマーク (2)

  • Web系雑記: サロゲートペアをJavaScriptで検出する方法

    ちょっと調べる機会があったので。 まずサロゲートペアの性質について ・Unicode と UTF http://www.parof.jp/Programing/Unicode/ Unicode で「D800~DFFF」の範囲(これがサロゲート領域)にあるビット列がでてきたら、次の2バイトと合わせて1文字と認識しなさい、と定められています(逆に言うと、「D800~DFFF」はそれだけで表現される文字というのが定められていません)。そしてこの領域のうち「D800~DBFF」は4バイトのうち上位2バイトで使い、「DC00~DFFF」は下位2バイトで使われます。 JavaScriptのcharCodeAtメソッドでサロゲートペアの文字 一文字を調べると、charCodeAt(0)で上位サロゲートのコード、 charCodeAt(1)で下位サロゲートのコードが返ってきます。 (ちなみにlengthは

  • decodeURIComponentのもろもろについて - 枕を欹てて聴く

    追記1 SpiderMonkeyのサロゲートエリアのbug issue は修正されました! (該当commit) 記事の一番下を御覧ください. 追記2 V8のサロゲートエリアのbug issue は修正されました!(該当commit) これで以下の記事のサロゲートエリアのbugはV8, SpiderMonkey, JSCで修正されました 普段1.5ヶ月に1記事しか書かないのに, 今日は3つも書いて正気の沙汰じゃないで... id:piro_or さんよりcommentで, id:nanto_vi さんの以下の記事の話を受けましたのでー. (commentついたの1年ぶりで感涙) 文字列と UTF-8 バイト列の相互変換: Days on the Moon リンク先の記事では, 以下の方法によるUTF-16 <=> UTF-8の変換が記載されています. function toUTF8Octe

  • 1