タグ

surrogate pairに関するtravelershouseのブックマーク (3)

  • Java とサロゲートペアについて - にょきにょきブログ

    サロゲートペアを知らない人は、その挙動に戸惑うだろう。直感に反する挙動をするからだ。 次の Java コードを実行すると何が表示されるだろうか。 String val = "𠮷"; System.out.println(val.length()); val は見た目上は一文字なので 1 と表示することを期待するが、実際の結果は 2 と表示される。これは "𠮷" という文字はサロゲートペア文字で、2byte 文字では表せない文字だからである。この文字を表示するために内部では char 2つ(即ち4byte)を用いてこの一文字を表している。この「2つのcharで1つの文字を表す」文字をサロゲートペアと言う。 見た目上の文字数と内部で表される文字数が異なるため、冒頭のコードは2を返したわけだ。 さて、次のコードを実行するとエラーにならず、"𠮷" を構成する2つの文字が取得できることがわかる

    Java とサロゲートペアについて - にょきにょきブログ
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • サロゲートペア入門

    はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。 対象読者 Unicodeでデータ処理

    サロゲートペア入門
    travelershouse
    travelershouse 2013/10/10
    なんか知識が足りてないと思ったら、なんだ文字コードからの独自の変換規則って…
  • 1