タグ

2012年9月19日のブックマーク (2件)

  • UTF-16 ‐ 通信用語の基礎知識

    Unicodeには、U+0000からU+10FFFFまでのコードポイントが存在する。 元々16ビット固定長として作られたUnicodeであったが、16ビットを超える範囲を符号化するために、16ビットを二つ組み合わせて、16ビットを超える範囲の文字を表現することになった。この専用の記号文字をサロゲートといい、二つ組み合わせる手法をサロゲートペアという。 UTF-16では1バイトが16ビットになるが、これをバイトと呼ぶと混乱を招くため、UTF-16ではこれをコードユニットと呼ぶ。このように、16ビットのコードユニットを組み合わせてUnicodeを表現する符号化方法を、UTF-16という。 UTF-16は16ビット単位で文字が表現されるが、コンピューターではそれを8ビットごとに分解して処理することになるだろう。 エンディアンネス(ビッグエンディアンとリトルエンディアン)の違いがあり、どのようなオ

  • Notepad(メモ帳)を使うべきではない理由 その17~20 | 配電盤

    17: CR+LFのみを改行として認識する わかりやすく言えば、改行がなくなって読めたもんじゃなくなることがある。 テキストファイルで使われる改行コードには、Windowsで標準的なCR+LF(0x0d0a)のほかに、Unixに多いLine Feed (LF, 0x0a)やMacで多かったCR (Carriage Return, 0x0d)があるんだけど、Notepadが改行と認めるのはCR+LFだけ。マイクロソフトがそう言うのならしょうがない。 18: UTF-8で保存するとBOMが付く わかりやすく言えば、ファイルに余計なデータが付加されて、それを削除できない。 BOM (Byte Order Mark)とはUTF-16の形式(little endianあるいはbig endian)を識別するために先頭に書かれる文字(Zero Width No-break Space, ZWNBS,

    Notepad(メモ帳)を使うべきではない理由 その17~20 | 配電盤