[B! unicode] bohemianwayのブックマーク

HFS+のテキストエンコーディング – ものかの

HFS+はファイルやフォルダなどのアイテム名をどのテキストエンコーディングで扱っているのでしょうか？ Appleは最近までこの情報をドキュメントに記載して公開していたのですが、今はしていません（2016年10月現在）。それでも第三者によるアーカイブがかろうじて残っており、典拠として貴重なのでここに記録しておきます。 2009年時点のFile Systems and Unicode Support 追記：いつのまにかリンク切れしていました。キャプチャを貼っておいてよかった…。見ての通りUTF-16ですね。インターネット上ではUTF-8-MACであるとの説明が散見されますが間違いです。 HFS+のUnicode正規化形式 Unicode正規化形式はUAX#15で4種類が正式に決められています。HFS+はそのうちのNFDをさらにAppleが改変した特殊な正規化形式を実装しています。アイテム名は

bohemianway 2016/05/06

リンク

文字コード地獄秘話第3話：後戻りの効かないUnicode正規化 - ALBERT Engineer Blog

はじめにおっと、またまた会いましたね。文字コードおじさんです。前回、Unicodeにおける結合文字列という話題を取り上げました。思わず「いやあ、結合文字列は強敵でしたね」と口走りそうになる代物でしたが、今回はそれに関連したUnicode正規化のお話をしてみようと思います。ざっと前回のおさらい詳しいことは前回の記事をご覧いただくとして、最低限の用語についてざっくりおさらいしておきましょう結合文字列複数の文字を使って見かけ上の1文字を表現する仕組み「て（U+3066）」の後に、「濁点（U+3099）」を配置することによって「で」を表現する合成済み文字「で（U+3067）」などのあらかじめ合成されている文字 Unicode正規化結合文字列を合成済みに統一したり、合成済み文字を結合文字列にしたりする処理少々語弊がありますが、イメージがつかめればOKです。正規化の4

bohemianway 2015/12/20

unicode

リンク

Unicode正規化

正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによる

bohemianway 2015/12/20

unicode

リンク

文字化け

[Raspberry PiでQt5をはじめよう] - Raspberry Piについて - Qt5のクロスコンパイル - エミュレータで実行 ------------------------------------------------------------------------ - Whats Raspberry Pi? - How to Qt5 cross compiles about Raspberry Pi. - Can it emulation Qt5?

bohemianway 2015/06/13

リンク

UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由　

bohemianway 2015/03/07

リンク

UTF-8で4バイトになる文字 at softelメモ

JIS X 0213の第3・4水準漢字の一部が4バイトとなる。マイナーな文字ですね。例えば、第1・2水準漢字だけ対応していればよい案件などでは考慮しなくてよいでしょう。 MySQLではこのUTF-8で4バイトになる文字を扱えないのだとか（MySQL6なら対応したそうだ）。数値文字参照で全部書いてみた。（パッチのあたっていないWindowsXPなどでは表示されないです。）𠀋𡈽𡌛𡑮𡢽𠮟𡚴𡸴𣇄𣗄𣜿𣝣𣳾𤟱𥒎𥔎𥝱𥧄𥶡𦫿𦹀𧃴𧚄𨉷𨏍𪆐𠂉𠂢𠂤𠆢𠈓𠌫𠎁𠍱𠏹𠑊𠔉𠗖𠘨𠝏𠠇𠠺𠢹𠥼𠦝𠫓𠬝𠵅𠷡𠺕𠹭𠹤𠽟𡈁𡉕𡉻𡉴𡋤𡋗𡋽𡌶𡍄𡏄𡑭𡗗𦰩𡙇𡜆𡝂𡧃