[B! unicode] a_bickyのブックマーク

サロゲートペア入門

はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日本語漢字の数が増えました。従来、12238字（Windows XP）だったのが13145字（Windows Vista）になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです（Windows XPまでは一部サポート）。またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。対象読者 Unicodeでデータ処理

a_bicky 2013/01/30

unicode

リンク

Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

もうすぐお正月だし、こんな図を作ってみたんだけどね。十二支ですか？　いろんな国の十二支？そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。いちばん左の列が標準的な十二支ってことですね。うん。日本だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。カザフスタンでは、来年の干支はカタツムリですか。よくわからないけど、そうなのかな。このペルシアのネズミは、どうして小さいんですか？　標準仕様のネズミの絵を縮小したみたいに見えますけど。それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。え？　でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。原則は、そうだね。じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか？まあ、ちょっと

a_bicky 2012/01/07

neta
unicode

リンク

Unicode一覧 0000-0FFF - Wikipedia

この一覧は、U+0000からU+0FFFまでのUnicodeコードの一覧である。YYY0行X列のコードはU+YYYXであり、HTML文字参照は&#xYYYX;である（環境により表示が異なる場合がある）。各文字の範囲についてはUnicodeのブロックの一覧を参照。この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています（詳細）。

a_bicky 2011/11/06

去年だとここまで綺麗にまとまったものはなかった気がする！

unicode

リンク

PHPにおけるUnicode文字列の正規化

Unicodeでは、意味的に同じ文字を複数の方法で表現することができます。しかし、表現がバラバラなままだと、検索などで問題が発生することは容易に想像できます。そのため、表記を統一する仕組みとして「正規化」が用意されています。本稿ではPEARのI18N_UnicodeNormalizerを用いて、PHPでUnicodeの正規化を行う方法を紹介します。はじめに与えられた文字列を含む文書を返す検索機能を実装しているところを想像してください。検索語として「ページ」が与えられれば、「ページ」という文字列を含む文書を返します。これは特に難しいことではありません。半角の「ﾍﾟｰｼﾞ」が与えられたらどうでしょう。「ページ」と「ﾍﾟｰｼﾞ」を区別する必要がないような、一般的な文書検索においては、「ページ」という文字列を含む文書を返すのが望ましいはずです（もちろん、この2つは常に同一視できるわけではあ

a_bicky 2010/12/22

php
unicode

リンク

Unicode対応 JIS X 0208 文字コード表

Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区～08区　JIS非漢字（各種記号、英数字、かな） 13区～13区　NEC特殊文字（機種依存） 16区～47区　JIS第1水準漢字 48区～84区　JIS第2水準漢字文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字文字コード表区点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

a_bicky 2010/11/18

unicode

リンク

JIS X 0208 (1990) to Unicode 漢字コード表

unicodeの変換表はユニコードコンソーシアムのものを使用しています JIS X 0208 (1990) to Unicode UTF-8、UTF-16のコードがない文字は実体で表示されていても自分の環境に依存している可能性があります機種に依存しない観点より、ＨＴＭＬでUTF-8、UTF-16のコードがない文字は使用すべきではありません逆にUTF-8、UTF-16のコードがあるのに実体が表示されない場合は（無いと思いますが）SJISでの自分の環境がよほど悪いと考えるべきです JIS X 0208 (1990) to Unicode 漢字コード表区点 JIS SJIS EUC UTF-8 UTF-16 実体(SJIS) 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001 、 01 03 2123 814

a_bicky 2010/11/15

unicode

リンク

Unicode正規化

正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

a_bicky 2010/05/22

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

unicodeに関するa_bickyのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス