tak-zoのブックマーク - はてなブックマーク

UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
tak-zo 2006/12/28
UTF-8

エンコード
リンク
Yu TANAKA's Works:S-JISからUTF-8への変換
UTF-8 というステップを踏めばよい。因みに、ここで変換されるUTF-8には先頭 3バイトのBOM(Byte Order Mark)はつかない(UTF-8Nと呼ばれることもある)。よって、そのままJADやMANIFESTに利用可能 (UTF-8とUTF-8Nの違いについてはこちらを参照下さい[2002/10/29])。 ■変換関数例最初にコンバートしたデータを格納するのに必要な容量を調べて、その分の容量を確保してコンバートし、そのデータを引数で与えた領域に収まる分だけコピーしている。S-JISもUTF-8もNULL 終端。 //--------------------------------------------------------------------------- // doconv() //! 実際の変換処理。 /*! \param ssrc [i] 変換元の文
tak-zo 2006/12/28
UTF-8

エンコード
リンク
1

はてなブックマーク

タグ

ブックマーク / homepage1.nifty.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / homepage1.nifty.com (2)

UCS-2とUTF-8

Yu TANAKA's Works:S-JISからUTF-8への変換

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス