[B! unicode] h_kenanのブックマーク

h_kenan id:h_kenan

unicodeに関するh_kenanのブックマーク (3)

Twitterで旧字が化ける? CJK互換漢字という罠 - にせねこメモ
概要 Twitterに投稿するとCJK互換漢字が対応する統合漢字に化けるので、投稿時に化けないStandard Variant形式と互換漢字とを相互変換するページを作成した: 互換漢字-異体字セレクタコンバータはじめに Twitterで「社」(U+FA4C)、「羽」(U+FA1E)などの一部の旧漢字を投稿しようとすると、「社」(U+793E)、「羽」(U+7FBD)に化ける。 Twitterに次の文字列を投稿すると神(U+FA19)と神(U+795E) 福(U+FA1B)と福(U+798F) 羽(U+FA1E)と羽(U+7FBD) 既(U+FA42)と既(U+65E2) 梅(U+FA44)と梅(U+6885) 社(U+FA4C)と社(U+793E) 練(U+FA57)と練(U+7DF4) 者(U+FA5B)と者(U+8005) こうなる: CJK互換漢字がCJK統合漢字に化ける: 神
h_kenan 2021/05/30
unicode
リンク
UnicodeとUTF-8の違いは？ - 自分的まとめ - Humanity
UnicodeとUTF-8の違いは？ - Humanityはあんなに反響があるとは思わなかった。ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact
h_kenan 2010/02/03
unicode
リンク
Unicode正規化
正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ
h_kenan 2008/01/18
unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx