[B! 文字コード] paperclipのブックマーク

Unicode正規化

正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

paperclip 2006/11/02

リンク

シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら

paperclip 2006/06/29

リンク

小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの

小形克宏の「文字の海、ビットの舟」 ―― 文字コードが私たちに問いかけるもの [Reported by 小形克宏] 第1部　2000JISがやってきた第1回　2000JISとはなんだ？　（2000年1月19日）第2回　2000JISの原案はなぜ修整されたか？　（2000年1月26日）加筆修正 2000年2月22日第3回　前回までの訂正と補遺　（2000年2月2日）加筆修正 2000年2月22日第4回　JCS委員長、芝野耕司の反論（前編）　（2000年2月9日）加筆修正 2000年2月12日第5回　JCS委員長、芝野耕司の反論（後編）　（2000年2月16日）加筆修正 2000年2月22日特別編　MacOS Xの新フォントと2000JISの関係　（2000年2月23日）特別編2　ISO/IEC 10646で却下された(?)

paperclip 2005/06/02

文字コード

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

文字コードに関するpaperclipのブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス