タグ

utf8に関するkw5のブックマーク (3)

  • East Asian Width(UTF-8 ambiguous) - Constellation Scorpius

    昔困って一通り調べたので… (ncurses代替みたいなの書いた成果の一つ) “○"のような文字の文字幅, bugってませんか? 日語のようなmultibyteの文字について, 慣習として2つの幅を持たせてきた(全角). 一方アルファベットなんかは当然半角になっている. まあこれは当たり前. では例えば"○"はどうすべきなのか? 日語で書かれた文章は全角ばかり出てくるのにいきなり"○"だけ半角なのはおかしいし, 一方逆のことが欧米でも言える. そこでEast Asian Widthというものがあって, "○"といった文字はAmbiguous(曖昧)として定義され, 欧米では半角, 日など東アジア諸国では全角で表示されるという風にされている. ここまでなら心温まる話. さあここからが問題. このAmbiguous, 曖昧なもので半角とも全角ともいわれてない. つまりどうにでもなれーな状

    East Asian Width(UTF-8 ambiguous) - Constellation Scorpius
    kw5
    kw5 2013/04/15
  • スペースコード(HTML, Java, URL, 文字実体参照)

    スペースコード: HTML 10進, HTML 16進, Java 16進, URL 16進, 文字実体参照

  • UTF-8 - Wikipedia

    UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1–4バイトの可変長)の文字符号化形式および文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan

  • 1