タグ

unicodeに関するaliceinjpのブックマーク (3)

  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • "Sigil"を活用したePub電子書籍作りでの、日本語表示上の注意点/"UTF-8 format" ...... - AdhocBlog

    "Sigil"を活用したePub電子書籍作りでの、日語表示上の注意点/"UTF-8 format" ...... かつて自分は、リナックス・サーバー上にWebサイト関連ファイルをアップロードする際、 "文字コード" というものに梃子摺った覚えがある。ローカルPCサイドではほとんど問題視されない "文字コード" の問題が、サーバーサイドでは "文字表示不能" やいわゆる "文字化け" 現象となって現れるからだ。 ローカルPCサイドでは、Webスクリプトを書く際、かつては "秀丸エディター" なぞを常用し、オプション設定の "文字コード" は "SHIFT-JIS" あたりを汎用していた。 つまり、万事を "SHIFT-JIS" フォーマットのファイルで押し通そうとしてたわけだ。ところが、サーバー上の他のWebサイト関連ファイルが、 "Unicode(ユニコード)" の "UTF-8" フォ

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

  • 1