タグ

UTF-8に関するcho45のブックマーク (2)

  • 文字列と UTF-8 バイト列の相互変換: Days on the Moon

    やっていることは「高度な JavaScript 技集」の「UTF-8 <-> UTF16 変換」と同じ。 function toUTF8Octets(string) { return unescape(encodeURIComponent(string)); } function fromUTF8Octets(octets) { return decodeURIComponent(escape(octets)); } encodeURIComponent は encodeURI でもいい (むしろそのほうが処理する文字種が減って速くなりそう) が、decodeURIComponent は decodeURI にすると一部の文字 ("?"、"#" など) がデコードされなくなる。 使いどころ Base64 エンコードする関数 (「高度な JavaScript 技集」の base64encod

  • UTF-8

    UTF(Unicode Text Format)はUnicodeのテキストをデータとして入出力する時 に用いるフォーマットです。 UnicodeコンソーシアムではUTF-7, UTF-8, UTF-16の3種類のUTFを定義してい ますが、Javaではこの中のUTF-8を採用しています。 UTF-8の最大の特徴はASCIIコードは、まったく同じエンコーディングが行われ ることです。 つまり通常のASCII文字列に対してUTF-8を使用した入出力を行うことができる わけです。 ファイル名やドメイン名などASCIIコードの範囲で定義される文字列の入出力 に向いているといえるでしょう。 java.io.DataInput、java.io.DataOutputにデータ入出力にUTF-8の入出力機能が定義されています。 UTF-8のコード ビット列 内容

  • 1