[B! utf-8][正規化] pugleeのブックマーク

puglee id:puglee

utf-8と正規化に関するpugleeのブックマーク (2)

ものかの >> archive >> Unicode正規化　その１
Unicode正規化　その１　（2010.3.21 改訂） Unicodeのテキストをあつかう上で、「結合文字列」と「Unicode正規化」はどうしても避けることのできない問題です。ここではあまり深く掘り下げずに、ユーザの眼を通してこれを見ていこうと思います。まずはじめに、Unicodeには「特殊な文字」があることを知っておきましょう。 Unicodeの特殊な文字ここに２つの「ポ」があります。OS X のエディタ「テキストエディット」に表示された文字です。まったく同じに見えますが、この２文字、実は文字データとして全く違うものです。左は普通の１文字ですが、右は「ホ＋半濁音」の２文字のデータで構成されています。両方とも見た目が１文字なので違いがまったく分かりません。そこで、違いを実感できるように「簡単なソフト」を作ってみました。 >> download（Mac OS X 用）左に「ポ
puglee 2011/07/29
unicode

utf-8

正規化

mac
リンク
Unicode正規化
正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ
puglee 2011/07/29
programming

unicode

文字コード

正規化

utf8

utf-8
リンク
1

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

はてなブックマーク

タグ

関連タグで絞り込む (5)

utf-8と正規化に関するpugleeのブックマーク (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (5)

utf-8と正規化に関するpugleeのブックマーク (2)

ものかの >> archive >> Unicode正規化 その１

Unicode正規化

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

ものかの >> archive >> Unicode正規化　その１