[B! Unicode] tegetegetegeのブックマーク

Unicode正規化

正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

tegetegetege 2011/10/19

Unicode正規化とは

リンク

Google Sites: Sign-in

tegetegetege 2011/10/19

文字コードとは？というところから、CJK統合漢字、CJK互換漢字、結合文字、「合成済みの文字」と「合成によって表現される文字」の正規化、異体字セレクタなど発展的な話題まで分かりやすく説明してある

リンク

Unicode正規化 – ものかの

コンテンツへスキップ以前書いたものです。旧サイトへのリンクを貼っておきます。 Unicode正規化　その１ Unicode正規化　その２ Unicode正規化　その３ Unicode正規化　その４ Unicode正規化　その５

tegetegetege 2011/10/18

Unicode正規化。濁音や半濁音がなぜバラバラになってしまうのか。

リンク

UniView

How to Convert Text to Unicode Code Points How to Convert Text to Unicode Code Points The process for working with character encodings in Python, or converting text to Unicode code points at any point in time, can be incredibly confusing, complex, and convoluted – especially if you aren’t particularly familiar with the Unicode language to begin with. Thankfully though, there are a lot of tools (an

tegetegetege 2010/10/01

リンク

Character encodings: Essential concepts

This article introduces a number of basic concepts needed to understand other articles that deal with characters and character encodings. Unicode Unicode is a universal character set, ie. a standard that defines, in one place, all the characters needed for writing the majority of living languages in use on computers. It aims to be, and to a large extent already is, a superset of all other characte

tegetegetege 2010/10/01

リンク

Unicode のアラビア文字の入力について - 取引費用ゼロの歴史〜アーカイヴズと歴史研究のトリセツ

あまり明確に書いてあるところがないので、アラビア文字の入力について、混乱しそうな点について書いておきます。特にウルドゥー語やペルシャ語などの入力に関係します。結論を先に書くと、新規にアラビア文字でテキストを入力するには、Unicode では 0600-06FF 番の文字を使います。Presentation Forms A & B として定義されている、FB50-FDFF と FE70-FEFF は、後方互換性確保のためのもので、新規作成のための使用は非推奨です。 Unicode では、0600-06FF 番のコードポイントにアラビア文字が割り当てられていますが、その他にも 0750-077F (Arabic Supplement) FB50-FDFF (Arabic Presentation Forms-A) FE70-FEFF (Arabic Presentation Forms-B)

tegetegetege 2010/10/01

リンク

The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)

I’m Joel Spolsky, a software developer in New York City. More about me. Read the archives in dead-tree format! Many of these articles have been collected into four books, available at your favorite bookstore. It’s an excellent way to read the site in the bath, or throw it at your boss. Ready to level up? Stack Overflow Jobs is the job site that puts the needs of developers first. Whether you want

tegetegetege 2010/03/23

Joel on Softwareの文字コードに関する記事

リンク

Unicode と UTF

Unicode ってなに？「よーするに Unicode ってなんなのさ！」ということでいろいろ調べてみたものをまとめてみました。で、頑張って調べてはみたのですが調べれば調べるほどイモヅル式に新しい情報が出てきてまとめきりませんでした。なので少々不完全です。いちおう「Unicode ってどんなものなのかな～」ってことが分かってもらえればと思います。このコーナーでは、「45」のように二桁で区切られた文字を16進で表された1バイトの表現として扱います。このコーナーではこのような表現もビット列と呼ぶことにします。例えば「F0」という16進のバイト表現があれば「11110000」のようなビット列を思い浮かべてください。コンピュータと文字コンピュータが扱えるデータはそもそも「0」と「1」の2進数です。2進数は頑張れば10進数とか16進数とかになるので数値は使えます。ですが本来、文字は扱え

tegetegetege 2008/02/13

平易で分かりやすい

リンク

Unicode対応 JIS X 0208 文字コード表

Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区～08区　JIS非漢字（各種記号、英数字、かな） 13区～13区　NEC特殊文字（機種依存） 16区～47区　JIS第1水準漢字 48区～84区　JIS第2水準漢字文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字文字コード表区点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

tegetegetege 2008/02/12

Unicode対応のJIS第一水準漢字の文字コード表

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

Unicodeに関するtegetegetegeのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス