タグ

unicodeに関するcknbstrのブックマーク (4)

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

    cknbstr
    cknbstr 2012/01/17
    Unicodeでは例えばアクセント付き文字や仮名の濁音・半濁音などを表すのに、合成済み文字 (precomposed character) でも、結合文字列 (combining character sequence) 《基底文字 (base character) の後に1以上の結合文字 (combining character) を続け
  • Program Tips - UNICODE

     完全にVC++用のTipsです。Windows NT workstation 4.0 (Service Pack 5) + Visual Studio 5.0 Professional (Service Pack 3)でチェック済みです。 さらに,実は覚え書きだったりする。 UNICODEプログラムの書き方 UNICODEプログラムといっても,普通に書くだけです。少し書くときにコツがありますが。 UNICODEのみを考えたプログラムの場合 従来文字コードを考えない場合です。 文字・文字列 文字を扱うには,wchar_t型,またはWCHAR型を使います。文字列型としてはLPWSTRやLPCWSTRをつかいます。 文字定数・文字列定数 文字定数や文字列定数を定義するときは,Lで修飾します。 'a' L'a' "テスト" L"テスト" Lによる修飾を怠ると,"テスト"は0x83 0x65 0

  • Unicode Character Search

    Unicode Character Search Query: include Han codepoints? Cancel A-Z index | Search options

    cknbstr
    cknbstr 2011/09/07
    ユニコード検索
  • EmacsとUnicode文字で遊ぶ - 檜山正幸のキマイラ飼育記 (はてなBlog)

    http://xahlee.org/emacs/emacs_n_unicode.html (by Xah Lee, 2006-07)に面白いことが載っていました。Emacsで、Unicodeレパートリのさまざまな文字を入力する方法; 実用性はともかくも、まー、遊べます。 [追記]ミスとtypoがありました。アクセント記号の順序と、Lisp式中のfaile→fileです。直しました。[/追記][さらに追記]まだLispコードにミスが残っていたので、直しました。画面も差し替えないと。←差し替えた。[/さらに追記][もっと追記]アンレーーッ?? Lispコードの一部が注釈になっちゃてるよ。Lispだと括弧2つなんてザラだからな。[/もっと追記] ダイアクリティカルマーク付きアルファベットの入力 ダイアクリティカルマーク(Wikipedia項目参照)が付いたアルファベットを入力できます。 最初の3

    EmacsとUnicode文字で遊ぶ - 檜山正幸のキマイラ飼育記 (はてなBlog)
  • 1