前回のエントリで、「 なんで世にあるアプリケーションは1バイトで済むUTF-8を3バイト表現でもOKなんて勘違いをするの?」って書いたけど、なんでかを考えてみた。 きっかけは、コメント きっかけは、id:kick123からもらったコメント 「C2〜DFはC0〜DF?」ってところですが、1バイトで表現できるのは7ビットまでで、80を表現するには8ビットが必要です。 2バイト表現にあてはめるなら、「1100 0010」と「1000 0000」になり、1バイト目はC2になる。 ってことではないですか? これ、最初「???」って感じだったんです。 理解するために、とりあえず「UTF-8で1byteで表せる文字一覧」を作ってみる。 utf-8_mapping_1byte posted by (C)ITOH Takashi これ出すのに使ったプログラムは、PHPで <?php for ($i=0; $