タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

Unicodeに関するsolitary_shellのブックマーク (3)

  • UTS #18: Unicode Regular Expressions

    Summary This document describes guidelines for how to adapt regular expression engines to use Unicode. Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a stable document and may be used as reference material or cited as a normative reference by other specifications. A Unicode Technical S

  • MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)

    といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離

    solitary_shell
    solitary_shell 2007/03/07
    ブロック
  • Unicode

    Unicode のブロック名称と Unicode Code Charts へのリンクです。 右欄に、JIS X 0221-1 に掲載されている日語名称を掲げます。 この欄の (4.1.0) は Unicode 4.1.0 で追加されたブロックであることを示します。 リンク欄に(注)があるブロックは、ファイルサイズが大きいためコピーしたファイルを参照しています(2005-9-25)。 fromtoブロックの名称 および Unicode Code Charts へのリンクX 0221-1 付属書A A.2 より \u0000\u007F

    solitary_shell
    solitary_shell 2007/03/07
    ブロックの名称とリンク
  • 1