[B! UTF-8] advblogのブックマーク

advblog id:advblog

UTF-8に関するadvblogのブックマーク (3)

chr関数：文字コードに対応する文字を返す
Perl で用意されている組み込み関数の一つである chr 関数の使い方です。 chr 関数は文字コードに対応した文字を返します。
advblog 2012/11/02
UTF-8

Perl
リンク
C++0xのUTF-8対応に問題あり
今まであまり気にしていなかったのだが、C++0xのUTF-8対応には、非常に深刻な問題があるように思われる。 C++0xでは、u8 encoding prefixを使うことによって、UTF-8でエンコードされた文字列リテラルが使える。 u8"あいうえお" ; しかし、このリテラルの型は、char const [16]なのだ。（UTF-8では、ひらがなは一文字3バイトを要する。null終端を付け加えて、サイズは16となる。）しかし、charという型は、歴史的に、あらゆるマルチバイト文字コードを格納するのに使われている。charを入力に受け取った時点で、それがどんなエンコードを使っているかは分からないのだ。つまり、以下の様な関数を書いた場合、 // UTF-8の文字列を入力に取る関数 void f( char const * ptr ) { // ptrがUTF-8文字列を参照している保証
advblog 2011/04/19
c++

C++0x

UTF-8
リンク
UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
advblog 2007/11/01
文字コード

プログラミング

UTF-8

Unicode

フォント

バイト
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx