タグ

UTF-16に関するmsh514のブックマーク (4)

  • UTF-16 ‐ 通信用語の基礎知識

    Unicodeには、U+0000からU+10FFFFまでのコードポイントが存在する。 元々16ビット固定長として作られたUnicodeであったが、16ビットを超える範囲を符号化するために、16ビットを二つ組み合わせて、16ビットを超える範囲の文字を表現することになった。この専用の記号文字をサロゲートといい、二つ組み合わせる手法をサロゲートペアという。 UTF-16では1バイトが16ビットになるが、これをバイトと呼ぶと混乱を招くため、UTF-16ではこれをコードユニットと呼ぶ。このように、16ビットのコードユニットを組み合わせてUnicodeを表現する符号化方法を、UTF-16という。 UTF-16は16ビット単位で文字が表現されるが、コンピューターではそれを8ビットごとに分解して処理することになるだろう。 エンディアンネス(ビッグエンディアンとリトルエンディアン)の違いがあり、どのようなオ

  • UTF-16 - Wikipedia

    UTF-16 (UCS/Unicode Transformation Format 16[注釈 1]) とは、UnicodeおよびISO/IEC 10646の、符号化フォームおよび符号化スキーム(文字符号化方式を参照)のひとつである。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基多言語面(BMP)内の文字は、符号単位1つの16ビットで表される。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化フォーム(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character

  • Unicode対応 JIS X 0208 文字コード表

    Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。 文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区~08区 JIS非漢字(各種記号、英数字、かな) 13区~13区 NEC特殊文字(機種依存) 16区~47区 JIS第1水準漢字 48区~84区 JIS第2水準漢字 文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字 文字コード表 区 点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

  • Unicode ~UTF-8、UTF-16との違い~(文字コード関連) | 読み物 | ウナのIT資格一問一答

    UnicodeとUTF-8、UTF-16との違いはなんでしょうか? ここでは、あまり詳細にはこだわらず、これらの概念を整理してみたいと思います。 まずUnicode。 これは文字集合です。アルファベットや記号はもちろん、漢字やひらがな、ハングルやヘブライ文字など、世界中で使われている文字を集めたものです。 次にUTF-8とUTF-16。 これらはUnicodeで定義されている一つ一つの文字を、どのように符号化するかという文字符号化方式(エンコーディング)です。 たとえば、Unicodeで定義されている「あ」という文字を、UTF-8とUTF-16で符号化すると下記のようになります(16進数表記)。 Unicodeという一つの文字集合に対して、異なる文字符号化方式UTF-8、UTF-16が存在し、符号化した結果も異なります。 どうしてUnicodeという一つの文字集合に対して、異なる文字符号化

  • 1